papers

DeepSeekMath-V2 技术白皮书:迈向自验证数学推理

本文介绍了DeepSeekMath-V2,旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性,从而实现自我可验证的数学推理能力。该系统引入了元验证过程,以确保验证器识别的错 …
papers

DeepSeekMath-V2 技术白皮书:迈向自验证数学推理

本文介绍了DeepSeekMath-V2,旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性,从而实现自我可验证的数学推理能力。该系统引入了元验证过程,以确保验证器识别的错误是准确的,并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环,通过扩展计算规模来自动标注难以验证的新证明,从而提高了系统的能力。
📅 2025-11-29 ⏱️ 3 分钟 📝 555 字
#AI #DeepSeek #Math
AI的“知识僵化症”有救了?揭秘MIT自适应大模型SEAL
papers

AI的“知识僵化症”有救了?揭秘MIT自适应大模型SEAL

麻省理工学院(MIT)的一项开创性研究,为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models,自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力:它们可以“自己教自己”,通过生成和应用自己的学习材料,来持续进化其内部的知识体系。
📅 2025-10-29 ⏱️ 1 分钟 📝 92 字
#SEAL #self-adaptive #llm
Agent训练新范式:Agent Learning via Early Experience
papers

Agent训练新范式:Agent Learning via Early Experience

传统AI训练像是把人类所有的知识都强行灌输AI,而Meta的最新论文《Agent Learning via Early Experience》为我们展示了一条训练AI智能体的新路径: 可扩展、无需奖励的实用范式,通过将智能体自身的行为和结果转化为强大的监督信号,显著提升了AI的性能、数据效率和泛化能力。
📅 2025-10-14 ⏱️ 1 分钟 📝 131 字
#AI #Meta #Agent
小模型逆袭:秘密武器竟是给AI一本不断变厚的“攻略”
papers

小模型逆袭:秘密武器竟是给AI一本不断变厚的“攻略”

该论文介绍了一个名为 ACE(Agentic Context Engineering,代理上下文工程) 的框架,该框架旨在通过演化上下文而非微调模型权重的方式,实现大型语言模型(LLMs)的自我改进。ACE将上下文视为不断累积、提炼和组织策略的 “演化剧本”,从而克服了现有上下文适应方法中存在的简洁性偏差和上下文崩溃等主要限制。通过使用 生成器、反射器和策展器 这三个代理组件,ACE实现了增量更新和“增长与提炼”机制,以保持详细的领域知识并提高可扩展性。实验结果表明,ACE在代理基准测试和金融等领域特定任务中显著优于现有基线方法,同时还能大幅降低适应的延迟和成本。
📅 2025-10-11 ⏱️ 2 分钟 📝 268 字
#Agentic Context Engineering #ACE #AI
AI for Research Survey
papers

AI for Research Survey

AI for Research Survey. 这篇综述文章概述了人工智能在科学研究(AI4Research)中的应用,强调了大型语言模型(LLMs)在促进科学发现各个阶段的潜力。它建立了一个系统的分类体系,将AI4Research分解为五个主要任务:科学理解、学术调查、科学发现、学术写作和学术同行评审。文章详细介绍了AI在这些领域中的具体应用,例如辅助思想挖掘、实验设计、数据分析、论文撰写和同行评审。此外,该综述还识别了未来的研究方向,包括跨学科AI模型、伦理考量以及多模态和多语言集成,旨在为研究界提供资源并激发AI驱动的科学创新。
📅 2025-07-06 ⏱️ 3 分钟 📝 468 字
#agent #research #survey