Training - My AI Blog

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

2025-07-04

#Reflect, Retry, Reward #LLM #training

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

阅读全文

Reinforced Self-play Reasoning with Zero Data 论文解读

2025-05-11

#AI #论文 #Reinforced

论文介绍了强化自博弈推理的零数据范式，通过自博弈生成任务和验证，实现无需依赖人工标注数据或预设任务的自主学习推理。

阅读全文

Reinforced Self-play Reasoning with Zero Data 论文解读

2025-05-11

#AI #论文 #Reinforced

论文介绍了强化自博弈推理的零数据范式，通过自博弈生成任务和验证，实现无需依赖人工标注数据或预设任务的自主学习推理。

阅读全文

多智能体强化学习（MARL）在多智能体系统（MAS）中的应用：理论、算法、应用与展望

2025-04-26

#AI #多智能体 #强化学习 #MARL #MAS #论文 #技术

本文介绍了多智能体强化学习（MARL）在多智能体系统（MAS）中的应用：理论、算法、应用与展望。

阅读全文

微调

2025-02-26

#training #finetuning #DeepSeek-R1 #Unsloth #LoRA

本文介绍了微调的常见挑战及其克服方法，并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。

阅读全文

Test-Time Scaling 相关论文解读

2025-02-19

#AI #Test-Time Scaling #论文 #技术

本文介绍了Test-Time Scaling（测试时扩展）的概念，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

阅读全文

DeepSeek 微调

2025-02-14

#AI #DeepSeek #论文 #技术

本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.

阅读全文

DeepSeek V3 论文解读

2025-02-14

#AI #DeepSeek-V3 #论文 #技术

本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-V3，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

阅读全文

Simple Test-Time Scaling 论文解读

2025-02-10

#opensource #reasoning #SFT #论文 #Finetuning

本文介绍了来自李飞飞团队的Simple Test-Time Scaling论文，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

阅读全文

DeepSeek R1 论文解读

2025-02-10

#AI #深度思考 #DeepSeek-R1 #论文 #技术

本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-R1，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

阅读全文