Papers | Peng Tan's AI Blog

小模型逆袭：秘密武器竟是给AI一本不断变厚的“攻略”

小模型逆袭：秘密武器竟是给AI一本不断变厚的“攻略”

该论文介绍了一个名为 ACE(Agentic Context Engineering，代理上下文工程) 的框架，该框架旨在通过演化上下文而非微调模型权重的方式，实现大型语言模型（LLMs）的自我改进。ACE将上下文视为不断累积、提炼和组织策略的 “演化剧本”，从而克服了现有上下文适应方法中存在的简洁性偏差和上下文崩溃等主要限制。通过使用生成器、反射器和策展器这三个代理组件，ACE实现了增量更新和“增长与提炼”机制，以保持详细的领域知识并提高可扩展性。实验结果表明，ACE在代理基准测试和金融等领域特定任务中显著优于现有基线方法，同时还能大幅降低适应的延迟和成本。

📅 2025-10-11 ⏱️ 9 分钟 📝 3430 字

#Agentic Context Engineering #ACE #AI

AI for Research Survey

AI for Research Survey

AI for Research Survey. 这篇综述文章概述了人工智能在科学研究（AI4Research）中的应用，强调了大型语言模型（LLMs）在促进科学发现各个阶段的潜力。它建立了一个系统的分类体系，将AI4Research分解为五个主要任务：科学理解、学术调查、科学发现、学术写作和学术同行评审。文章详细介绍了AI在这些领域中的具体应用，例如辅助思想挖掘、实验设计、数据分析、论文撰写和同行评审。此外，该综述还识别了未来的研究方向，包括跨学科AI模型、伦理考量以及多模态和多语言集成，旨在为研究界提供资源并激发AI驱动的科学创新。

📅 2025-07-06 ⏱️ 8 分钟 📝 2847 字

#agent #research #survey

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

📅 2025-07-04 ⏱️ 6 分钟 📝 2385 字

#Reflect, Retry, Reward #LLM #training

深度研究智能体：系统性审查与路线图

深度研究智能体：系统性审查与路线图

本文介绍了深度研究智能体：系统性审查与路线图。

📅 2025-07-01 ⏱️ 10 分钟 📝 3930 字

#deep_research_agents #systematic_examination #roadmap

Gemini - 通用智能体是否需要世界模型

Gemini - 通用智能体是否需要世界模型

本文探讨了通用智能体是否需要世界模型才能实现灵活的、面向目标的行为

📅 2025-06-05 ⏱️ 10 分钟 📝 3645 字

OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

本文介绍了OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking。

📅 2025-06-01 ⏱️ 15 分钟 📝 5625 字

#machine_writing

从人工标注到自我迭代：大模型工具学习的动态文档优化新范式

从人工标注到自我迭代：大模型工具学习的动态文档优化新范式

本文介绍了从人工标注到自我迭代：大模型工具学习的动态文档优化新范式。

📅 2025-05-25 ⏱️ 3 分钟 📝 913 字

#tool_learning #tool_document

papers

Reinforced Self-play Reasoning with Zero Data 论文解读

论文介绍了强化自博弈推理的零数据范式，通过自博弈生成任务和验证，实现无需依赖人工标注数据或预设任务的自主学习推理。

Reinforced Self-play Reasoning with Zero Data 论文解读

论文介绍了强化自博弈推理的零数据范式，通过自博弈生成任务和验证，实现无需依赖人工标注数据或预设任务的自主学习推理。

📅 2025-05-11 ⏱️ 16 分钟 📝 6183 字

#AI #论文 #Reinforced

Chain of Draft 论文解读

Chain of Draft 论文解读

本文介绍了Chain of Draft（CoD）论文，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

📅 2025-03-01 ⏱️ 9 分钟 📝 3349 字

#AI #Chain of Draft #论文

papers

Test-Time Scaling 相关论文解读

本文介绍了Test-Time Scaling（测试时扩展）的概念，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

Test-Time Scaling 相关论文解读

本文介绍了Test-Time Scaling（测试时扩展）的概念，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

📅 2025-02-19 ⏱️ 15 分钟 📝 5666 字

#AI #Test-Time Scaling #论文