Training

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

3 标签
#Reflect, Retry, Reward #LLM #training
2385 字 10 分钟
阅读全文

微调

本文介绍了微调的常见挑战及其克服方法,并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。

5 标签
#training #finetuning #DeepSeek-R1 +2
2421 字 10 分钟
阅读全文