Finetuning

微调

本文介绍了微调的常见挑战及其克服方法，并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。

2025-02-26

5 标签

#training #finetuning #DeepSeek-R1 +2

2421 字 10 分钟

阅读全文

Simple Test-Time Scaling 论文解读

本文介绍了来自李飞飞团队的Simple Test-Time Scaling论文，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

2025-02-10

5 标签

#opensource #reasoning #SFT +2

2248 字 9 分钟

阅读全文