Papers

AI的“知识僵化症”有救了?揭秘MIT自适应大模型SEAL

麻省理工学院(MIT)的一项开创性研究,为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models,自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力:它们可以“自己教自己”,通过生成和应用自己的学习材料,来持续进化其内部的知识体系。

4 标签
#SEAL #self-adaptive #llm +1
2606 字 11 分钟
阅读全文

Verbalized Sampling: 言语采样提升模型多样性

Verbalized Sampling: 言语采样提升模型多样性

5 标签
#LLM #Prompt #Mode Collapse +2
2038 字 9 分钟
阅读全文

Meta: 提示词对决优化器 (PDO)

这篇由Meta和宾夕法尼亚州立大学的研究者发布的论文提出了一种创新的、无需人工标注数据的提示词优化方法。

4 标签
#LLM #Prompt #Prompt Optimization +1
1065 字 5 分钟
阅读全文

DeepSeek-OCR:重塑AI长文本处理

本文介绍了DeepSeek-OCR,一种革命性的AI模型,能够将长文本处理效率提升数十倍,从而实现对超长文档的快速处理。

4 标签
#AI #DeepSeek #OCR +1
4014 字 17 分钟
阅读全文

Agent训练新范式:Agent Learning via Early Experience

传统AI训练像是把人类所有的知识都强行灌输AI,而Meta的最新论文《Agent Learning via Early Experience》为我们展示了一条训练AI智能体的新路径: 可扩展、无需奖励的实用范式,通过将智能体自身的行为和结果转化为强大的监督信号,显著提升了AI的性能、数据效率和泛化能力。

5 标签
#AI #Meta #Agent +2
2852 字 12 分钟
阅读全文

AI Context Engineering领域若干重要论文

这里将收集Context Engineering相关的重要文献,具体解读将在其他博客展开。

3 标签
#Context Engineering #Agent #AI
1188 字 5 分钟
阅读全文

小模型逆袭:秘密武器竟是给AI一本不断变厚的“攻略”

该论文介绍了一个名为 ACE(Agentic Context Engineering,代理上下文工程) 的框架,该框架旨在通过演化上下文而非微调模型权重的方式,实现大型语言模型(LLMs)的自我改进。ACE将上下文视为不断累积、提炼和组织策略的 “演化剧本”,从而克服了现有上下文适应方法中存在的简洁性偏差和上下文崩溃等主要限制。通过使用 生成器、反射器和策展器 这三个代理组件,ACE实现了增量更新和“增长与提炼”机制,以保持详细的领域知识并提高可扩展性。实验结果表明,ACE在代理基准测试和金融等领域特定任务中显著优于现有基线方法,同时还能大幅降低适应的延迟和成本。

3 标签
#Agentic Context Engineering #ACE #AI
3430 字 14 分钟
阅读全文

AI for Research Survey

AI for Research Survey. 这篇综述文章概述了人工智能在科学研究(AI4Research)中的应用,强调了大型语言模型(LLMs)在促进科学发现各个阶段的潜力。它建立了一个系统的分类体系,将AI4Research分解为五个主要任务:科学理解、学术调查、科学发现、学术写作和学术同行评审。文章详细介绍了AI在这些领域中的具体应用,例如辅助思想挖掘、实验设计、数据分析、论文撰写和同行评审。此外,该综述还识别了未来的研究方向,包括跨学科AI模型、伦理考量以及多模态和多语言集成,旨在为研究界提供资源并激发AI驱动的科学创新。

3 标签
#agent #research #survey
2847 字 12 分钟
阅读全文

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

3 标签
#Reflect, Retry, Reward #LLM #training
2385 字 10 分钟
阅读全文

深度研究智能体:系统性审查与路线图

本文介绍了深度研究智能体:系统性审查与路线图。

3 标签
#deep_research_agents #systematic_examination #roadmap
3930 字 16 分钟
阅读全文

Gemini - 通用智能体是否需要世界模型

本文探讨了通用智能体是否需要世界模型才能实现灵活的、面向目标的行为

1 标签
#world_model
3645 字 15 分钟
阅读全文

OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

本文介绍了OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking。

1 标签
#machine_writing
5625 字 23 分钟
阅读全文

从人工标注到自我迭代:大模型工具学习的动态文档优化新范式

本文介绍了从人工标注到自我迭代:大模型工具学习的动态文档优化新范式。

2 标签
#tool_learning #tool_document
913 字 4 分钟
阅读全文

Reinforced Self-play Reasoning with Zero Data 论文解读

论文介绍了强化自博弈推理的零数据范式,通过自博弈生成任务和验证,实现无需依赖人工标注数据或预设任务的自主学习推理。

3 标签
#AI #论文 #Reinforced
6183 字 25 分钟
阅读全文

Reinforced Self-play Reasoning with Zero Data 论文解读

论文介绍了强化自博弈推理的零数据范式,通过自博弈生成任务和验证,实现无需依赖人工标注数据或预设任务的自主学习推理。

3 标签
#AI #论文 #Reinforced
1 分钟
阅读全文

Chain of Draft 论文解读

本文介绍了Chain of Draft(CoD)论文,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#AI #Chain of Draft #论文 +1
3349 字 14 分钟
阅读全文

Test-Time Scaling 相关论文解读

本文介绍了Test-Time Scaling(测试时扩展)的概念,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#AI #Test-Time Scaling #论文 +1
5666 字 23 分钟
阅读全文

DeepSeek 微调

本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.

4 标签
#AI #DeepSeek #论文 +1
345 字 2 分钟
阅读全文

DeepSeek V3 论文解读

本文介绍了深度求索(DeepSeek)公司推出的新一代推理模型DeepSeek-V3,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

4 标签
#AI #DeepSeek-V3 #论文 +1
1169 字 5 分钟
阅读全文

Simple Test-Time Scaling 论文解读

本文介绍了来自李飞飞团队的Simple Test-Time Scaling论文,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

5 标签
#opensource #reasoning #SFT +2
2248 字 9 分钟
阅读全文

DeepSeek R1 论文解读

本文介绍了深度求索(DeepSeek)公司推出的新一代推理模型DeepSeek-R1,并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。

5 标签
#AI #深度思考 #DeepSeek-R1 +2
7683 字 31 分钟
阅读全文

DeepSeek R1 Paper Review

A comprehensive review of the DeepSeek R1 paper

5 标签
#AI #DeepThinking #DeepSeek +2
1 分钟
阅读全文