papers

DeepSeekMath-V2 技术白皮书:迈向自验证数学推理

本文介绍了DeepSeekMath-V2,旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性,从而实现自我可验证的数学推理能力。该系统引入了元验证过程,以确保验证器识别的错 …
papers

DeepSeekMath-V2 技术白皮书:迈向自验证数学推理

本文介绍了DeepSeekMath-V2,旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性,从而实现自我可验证的数学推理能力。该系统引入了元验证过程,以确保验证器识别的错误是准确的,并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环,通过扩展计算规模来自动标注难以验证的新证明,从而提高了系统的能力。
📅 2025-11-29 ⏱️ 3 分钟 📝 555 字
#AI #DeepSeek #Math
technologies

DeepSeek 开源 LLM 对闭源 LLM 的影响

本文介绍了DeepSeek开源LLM对闭源LLM的影响,包括性能基准测试和竞争、成本效益、开源可用性和定制、市场动态和战略转变、创新与社区发展、环境影响以及AI研究和应用的转变。
technologies

DeepSeek 开源 LLM 对闭源 LLM 的影响

本文介绍了DeepSeek开源LLM对闭源LLM的影响,包括性能基准测试和竞争、成本效益、开源可用性和定制、市场动态和战略转变、创新与社区发展、环境影响以及AI研究和应用的转变。
📅 2025-02-18 ⏱️ 1 分钟 📝 141 字
#AI #DeepSeek #开源
papers

DeepSeek 微调

本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.
papers

DeepSeek 微调

本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.
📅 2025-02-14 ⏱️ 1 分钟 📝 28 字
#AI #DeepSeek #论文