papersReflect, Retry, Reward: 大型语言模型的自我进化新范式Reflect, Retry, Reward: 大型语言模型的自我进化新范式📅 2025-07-04 ⏱️ 1 分钟 📝 59 字#Reflect, Retry, Reward #LLM #training
training微调本文介绍了微调的常见挑战及其克服方法,并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。training微调本文介绍了微调的常见挑战及其克服方法,并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。📅 2025-02-26 ⏱️ 3 分钟 📝 480 字#training #finetuning #DeepSeek-R1