LLM | Peng Tan's AI Blog

本文介绍了DeepSeekMath-V2，旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性，从而实现自我可验证的数学推理能力。该系统引入了元验证过程，以确保验证器识别的错误是准确的，并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环，通过扩展计算规模来自动标注难以验证的新证明，从而提高了系统的能力。

📅 2025-11-29 ⏱️ 17 分钟 📝 6424 字

#AI #DeepSeek #Math

papers

AI的“知识僵化症”有救了？揭秘MIT自适应大模型SEAL

麻省理工学院（MIT）的一项开创性研究，为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models，自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力：它们可以“自己教自己”，通过生成和应用自己的学习材料，来持续进化其内部的知识体系。

📅 2025-10-29 ⏱️ 7 分钟 📝 2606 字

#SEAL #self-adaptive #llm

papers

Verbalized Sampling: 言语采样提升模型多样性

📅 2025-10-27 ⏱️ 6 分钟 📝 2038 字

#LLM #Prompt #Mode Collapse

papers

Meta: 提示词对决优化器 (PDO)

这篇由Meta和宾夕法尼亚州立大学的研究者发布的论文提出了一种创新的、无需人工标注数据的提示词优化方法。

📅 2025-10-26 ⏱️ 3 分钟 📝 1065 字

#LLM #Prompt #Prompt Optimization

celebrity_insights

强化学习的奠基人的惊人警告：为什么说LLM可能是一条死胡同？

强化学习的奠基人惊人警告：为什么说LLM可能是一条死胡同？

📅 2025-10-02 ⏱️ 11 分钟 📝 4043 字

#AI #Richard Sutton #LLM

large_models

Gemini 2.5 Pro 在 IMO 2025 中的高级数学推理能力评估

Gemini 2.5 Pro 在 IMO 2025 数学奥林匹克竞赛中取得优异成绩，关键在于结合了强大的数学推理能力与自我验证迭代流程，有效避免逻辑错误和表面化思维，实现了接近人类专家的严谨解题表现。

📅 2025-08-14 ⏱️ 7 分钟 📝 2442 字

#IMO #LLM #数学推理

code_assistant

Claude-Code-Router：AI 时代的智能路由中枢

code_assistant

Claude-Code-Router：AI 时代的智能路由中枢

Claude-Code-Router (CCR) 是一款创新的AI模型智能路由工具，它通过拦截Claude Code 应用对Anthropic Claude模型的请求，进行多维度分析（如Token数量、用户指令、任务类型），然后依据动态路由规则和配置，将请求智能地导向最合适的AI模型（来自如Gemini、DeepSeek、本地Ollama模型等不同的模型服务提供商）。CCR的核心机制包括API格式的自动转换与适配、基于Express.js的中间件架构、异步请求处理，以及完善的错误检测、自动降级到兜底模型和潜在的重试策略，旨在提升AI服务调用的效率、灵活性和成本效益。

📅 2025-08-12 ⏱️ 35 分钟 📝 13929 字

#Claude-Code-Router #LLM #AI

context_engineering