Reflect, Retry, Reward: 大型语言模型的自我进化新范式
Reflect, Retry, Reward: 大型语言模型的自我进化新范式
3 标签
#Reflect, Retry, Reward
#LLM
#training
2385 字
10 分钟
阅读全文
Reflect, Retry, Reward: 大型语言模型的自我进化新范式
本文介绍了微调的常见挑战及其克服方法,并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。
尝试调整搜索条件或浏览其他分类