Papers

本文介绍了DeepSeekMath-V2，旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性，从而实现自我可验证的数学推理能力。该系统引入了元验证过程，以确保验证器识别的错误是准确的，并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环，通过扩展计算规模来自动标注难以验证的新证明，从而提高了系统的能力。

📅 2025-11-29 ⏱️ 17 分钟 📝 6424 字

#AI #DeepSeek #Math

papers

AI的“知识僵化症”有救了？揭秘MIT自适应大模型SEAL

麻省理工学院（MIT）的一项开创性研究，为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models，自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力：它们可以“自己教自己”，通过生成和应用自己的学习材料，来持续进化其内部的知识体系。

📅 2025-10-29 ⏱️ 7 分钟 📝 2606 字

#SEAL #self-adaptive #llm

papers

Verbalized Sampling: 言语采样提升模型多样性

📅 2025-10-27 ⏱️ 6 分钟 📝 2038 字

#LLM #Prompt #Mode Collapse

papers

Meta: 提示词对决优化器 (PDO)

这篇由Meta和宾夕法尼亚州立大学的研究者发布的论文提出了一种创新的、无需人工标注数据的提示词优化方法。

📅 2025-10-26 ⏱️ 3 分钟 📝 1065 字

#LLM #Prompt #Prompt Optimization

papers

DeepSeek-OCR：重塑AI长文本处理

本文介绍了DeepSeek-OCR，一种革命性的AI模型，能够将长文本处理效率提升数十倍，从而实现对超长文档的快速处理。

📅 2025-10-21 ⏱️ 11 分钟 📝 4014 字

#AI #DeepSeek #OCR

papers

Agent训练新范式：Agent Learning via Early Experience

传统AI训练像是把人类所有的知识都强行灌输AI，而Meta的最新论文《Agent Learning via Early Experience》为我们展示了一条训练AI智能体的新路径: 可扩展、无需奖励的实用范式，通过将智能体自身的行为和结果转化为强大的监督信号，显著提升了AI的性能、数据效率和泛化能力。

📅 2025-10-14 ⏱️ 8 分钟 📝 2852 字

#AI #Meta #Agent

papers

AI Context Engineering领域若干重要论文

这里将收集Context Engineering相关的重要文献，具体解读将在其他博客展开。

📅 2025-10-12 ⏱️ 3 分钟 📝 1188 字

#Context Engineering #Agent #AI

papers

小模型逆袭：秘密武器竟是给AI一本不断变厚的“攻略”

该论文介绍了一个名为 ACE(Agentic Context Engineering，代理上下文工程) 的框架，该框架旨在通过演化上下文而非微调模型权重的方式，实现大型语言模型（LLMs）的自我改进。ACE将上下文视为不断累积、提炼和组织策略的 “演化剧本”，从而克服了现有上下文适应方法中存在的简洁性偏差和上下文崩溃等主要限制。通过使用生成器、反射器和策展器这三个代理组件，ACE实现了增量更新和“增长与提炼”机制，以保持详细的领域知识并提高可扩展性。实验结果表明，ACE在代理基准测试和金融等领域特定任务中显著优于现有基线方法，同时还能大幅降低适应的延迟和成本。

📅 2025-10-11 ⏱️ 9 分钟 📝 3430 字

#Agentic Context Engineering #ACE #AI

DeepSeekMath-V2 技术白皮书：迈向自验证数学推理

数字分身