Peng Tan's AI Blog

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

MIT: The Surprising Effectiveness of …

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

MIT: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

📅 0001-01-01 ⏱️ 1 分钟 📝 19 字

📅 0001-01-01

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准，专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态 …

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

WorldScore 是首个统一评估基准，专注于评估 3D、4D 和视频模型在世界生成任务中的表现。它的出现填补了现有基准在多场景、多序列长度和动态性评估方面的空白，对 AI 业界的贡献具有以下几个关键点：

📅 0001-01-01 ⏱️ 4 分钟 📝 1776 字

特性	描述
可用性	Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所 …

特性	描述
可用性	Grok 4.1现已在grok.com、𝕏以及iOS和Android应用上向所有用户开放。立即在自动模式下推出，并可以在模型选择器中明确选择“Grok 4.1”。
改进点	在创意、情感和协作互动方面表现出色；对细微意图更加敏感；对话更具吸引力；个性更加一致，同时完全保留了前代产品的敏锐智能与可靠性。
技术进步	使用了与Grok 4相同的大型强化学习基础设施来优化模型的风格、个性、帮助性和一致性。开发了新方法，允许使用前沿代理推理模型作为奖励模型，以自主地大规模评估和迭代响应。
静默部署	从2025年11月1日至14日，逐步向越来越多的生产流量推出了初步的Grok 4.1版本。期间进行了连续的盲配对评估。
用户偏好	相比之前的生产模型，在流量中的偏好率为64.78%。
通用能力	在盲人偏好评估中设定了新的标准。
LMArena Text Leaderboard表现	思考模式（代号：quasarflux）排名第一，得分为1483 Elo；非思考模式（代号：tensor）排名第二，得分为1465 Elo。
情商	在EQ-Bench3测试中展示了卓越的情感智能能力，包括理解力、洞察力、同理心及人际交往技巧。
创造性写作	在Creative Writing v3基准测试中取得了高分，证明了其在创作性内容生成方面的强大能力。
减少幻觉现象	通过专注于减少信息查询提示中的事实错误，显著降低了快速（非推理）模型的幻觉率。

📅 0001-01-01 ⏱️ 2 分钟 📝 573 字

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者（Multi-agent）应用的强大框架，它作为 LangChain 生态的关键 …

LangGraph技术底座

LangGraph 技术架构与实现详解

本文档旨在全面剖析 LangGraph 的技术架构与底层实现。LangGraph 是一个用于构建有状态、可循环、多参与者（Multi-agent）应用的强大框架，它作为 LangChain 生态的关键扩展，为复杂的 AI 工作流提供了图计算的能力。

📅 0001-01-01 ⏱️ 14 分钟 📝 5316 字

Open-AutoGLM

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架，旨在通过多模态技术理解手机屏幕内容，并结合自动化操作帮助用户完成各类任务。它通过 ADB（Android Debug Bridge）控制设备，使用视觉语言模型进 …

Open-AutoGLM

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助手框架，旨在通过多模态技术理解手机屏幕内容，并结合自动化操作帮助用户完成各类任务。它通过 ADB（Android Debug Bridge）控制设备，使用视觉语言模型进行屏幕感知，并结合智能规划能力生成并执行操作。用户只需用自然语言描述需求，系统即可解析意图并完成任务，如“打开小红书搜索美食”等。

📅 0001-01-01 ⏱️ 4 分钟 📝 1457 字

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

世界生成统一评估基准：WorldScore

WorldScore 对 AI 业界的特殊贡献

LangGraph技术底座

LangGraph 技术架构与实现详解

LangGraph技术底座

LangGraph 技术架构与实现详解

Open-AutoGLM

Open-AutoGLM

数字分身