2026-03-08

GPT-5.4 Pro(xhigh)在 CritPt 基准测试中取得把最高分从9分(去年11月份,来自Gemini 3 pro preview)提高了10分到19分(GPT-5 (high) 仅达到 5.7%)。CritPt 是一个使用私有数据集的基准测试,用于测试在研究级物理推理任务上的性能。国产最高分是DeepSeekV3.2 Speciale(7.4分)。详情可以参考CritPt Benchmark Leaderboard

2026-03-07

最近达利欧表达了一个对比中美在AI开发和使用上的观点很有意思:

美国模式:以利润为导向,投入巨额资本建设 AI 基础设施,再通过收费产品/服务收回投资。
中国模式:把 AI 视为公共基础设施,用开源+低价甚至免费的方式最大化普及率,借大规模使用直接拉动生产力。

所以达利欧质疑:当中国愿意牺牲利润换普及,砸下重金的美国公司如何还能竞争? ​

2026-03-06

现在Langraph可以作为外层编排/运行时(runtime & orchestration),把 AutoGen 的 agent 当成一个“节点能力”来调用。参考链接,这个方法还可以延伸到使用别的agent。

flowchart TB
  %% =========================
  %% High-level: runtime + deployment
  %% =========================
  U[用户/客户端<br/>发送消息] -->|HTTP/WebSocket| S[LangGraph Server / App Runtime]
  S --> G[LangGraph Graph 执行引擎<br/>StateGraph + MessagesState]
  G <--> CP[Checkpointer<br/>MemorySaver / 持久化存储<br/>按 thread_id 读写状态]
  
  %% =========================
  %% Graph structure: START -> autogen node
  %% =========================
  subgraph GRAPH[Graph 结构]
    START((START)) --> N1[节点: autogen<br/>call_autogen_agent]
  end
  
  G --> START
  
  %% =========================
  %% Node internals: bridge LangGraph <-> AutoGen
  %% =========================
  subgraph BRIDGE[桥接层: LangGraph ↔ AutoGen]
    N1 --> M1[读取 state.messages<br/>对话历史]
    M1 --> M2[convert_to_openai_messages<br/>转换为 OpenAI messages]
    M2 --> L1[拆分消息<br/>last_message 与 carryover]
    L1 --> A0[AutoGen 运行时]
    
    subgraph AUTOGEN[AutoGen 侧]
      A0 --> UP[user_proxy: UserProxyAgent<br/>human_input_mode=NEVER<br/>可配置代码执行]
      UP -->|initiate_chat<br/>message + carryover| AA[autogen_agent: AssistantAgent]
      AA --> RSP[response.chat_history<br/>生成最终答复]
    end
    
    RSP --> O1[提取 final_content<br/>取最后一条 content]
    O1 --> O2[封装回 LangGraph 消息<br/>role=assistant + content]
    O2 --> NRET[返回并更新 state.messages]
  end
  
  %% =========================
  %% Streaming / response back
  %% =========================
  NRET -->|graph.stream 输出 chunk| OUT[流式/分块输出给客户端]
  OUT --> U
  
  %% =========================
  %% Deployment lane
  %% =========================
  subgraph DEPLOY[部署到 LangSmith 生产环境]
    FS[项目结构<br/>agent.py / requirements.txt / langgraph.json] --> CLI[langgraph deploy<br/>--config langgraph.json]
    CLI --> LS[LangSmith 托管与观测<br/>Traces / Eval / Datasets / Prompts]
  end
  
  LS -->|线上请求| S
  
  %% =========================
  %% Notes
  %% =========================
  CP -. 关键点 .-> NOTE1[LangGraph 负责持久化/线程记忆<br/>AutoGen 通过 carryover 显式获得上下文]
  LS -. 关键点 .-> NOTE2[LangSmith 提供生产能力<br/>可观测/评估/部署/版本管理]

2026-01-18

2026-01-12

可以考虑开发一个评估工具,不是评估一个人的IQ或技能熟练度,而是评估其**“AI协作商” (AI-Q)**。 该指数衡量一个人利用AI工具将抽象想法转化为具体成果的效率。它包括三个维度:

  • Prompt Artistry (提示词艺术):与机器沟通意图的精准度。
  • Synthesis Cap (综合能力):跨学科连接知识的能力(因为AI负责垂类深度,人负责广度连接)。
  • Taste/Curation (品味/策展):在AI生成的成百上千个方案中,识别出最优解的审美判断力。

2026-01-10

Google Antigravity 平台已与 Sonatype 的 Guide 安全工具集成,帮助 AI 编码代理避免引入存在漏洞或恶意的代码依赖项,此次合作解决了日益增长的担忧,即 AI 驱动的编码助手虽然能加速软件开发,但可能会无意中将安全漏洞引入生产系统。我的经验是,目前AI编码工具可能会自信地推荐过时或存在安全隐患的软件包,因为它们的训练数据无法反映当前生态系统的实际状况。而开发者在开发阶段更注重先让软件跑起来,而把第三方包的安全问题留到生产部署时才考虑。Sonatype的MCP 服务器可持续提供组件健康状况、安全风险以及更安全替代方案的情报。个人开发者和公司开发在实际开发中也要关注类似的问题。用开源项目并积极参与其中也是一个方法,用AI自己设计一个类似的工具是另一个方法。

2026-01-03

回头看看AI辅助编程能力的快速演进:2022年,AI能够完成单行代码;2023年,能够完成整个代码段;到2024年,可以跨多个文件工作;而到2025年,它们可以创建和重构整个代码库。现在我每天用AI Vibe Coding,Review, Refactor, Doc, TDD, SRE,Deploy。多Agent,多Repo的并发已经变成常态,而我才是那个真正的瓶颈所在。

Claude Code的创建者Boris Cherny在12月下旬分享说,在过去30天里,他对该项目的100%贡献——259个拉取请求和大约40,000行代码——完全是由Claude Code使用Opus 4.5模型编写的。Anthropic首席执行官Dario Amodei在2025年10月表示,他公司的大多数团队现在使用Claude编写90%的代码。

谷歌在2025年7月披露,AI现在编写公司约50%的新代码,高于2024年底报告的25%。这一转变正在重塑软件构建方式,开发人员越来越多地充当AI生成代码的审查者和协调者,而不是自己编写每一行代码。

2026-01-02

谷歌的一位首席工程师在x上发帖称,Claude Code在一小时内生成了一个分布式代理编排系统——一种协调多个AI代理的软件——与她的团队自去年以来一直在构建的系统相匹配。(需要注意的是谷歌是 Anthropic 的主要投资者,已向这家公司投资约30亿美元。2025 年10月,谷歌同意向 Anthropic 提供多达一百万个专用张量处理单元,交易价值达数百亿美元。

2026-01-01

2026新年伊始,AI 圈的主线正从“更大模型的炫技”转向“可落地的系统化能力”。多家观点将 2026 定义为从“Hype to Pragmatism”的转折点:更少强调无止境的 parameters scaling,转而聚焦于小模型(SLM)、World Model、以及让 Agents 真正接入业务系统的标准化接口与治理。

大模型:架构创新与专用化

  • 路线修正:趋势从“暴力扩参”转向“研究新架构 + 在合适场景用更小/更专用的模型”,强调成本、延迟、可控性与可部署性。scaling law 的边际收益递减使得架构创新(如对 World Models 的探索)变得更加关键。
  • SLM 的崛起:产业侧对“领域微调的小模型(SLM)”兴趣显著上升,它们能以更低成本达到特定任务所需的精度,且天然契合边缘计算与本地部署(Device-side AI)的需求。
  • 物理 AI (Physical AI):配合边缘计算,物理 AI(设备端、可穿戴、机器人、自动驾驶等)被视为 2026 重要的落地方向,NVIDIA 发布的 Cosmos(物理 AI)、Isaac GR00T(机器人)等开放模型家族正是由于此趋势驱动。

Agents:连接标准与生产环境

  • 落地的“最后一公里”:2025 年 Agent 难以落地的核心痛点在于缺失与真实系统(数据库、API、权限体系)的低摩擦连接。2026 的关键在于解决这些工程化挑战,而非单纯提升模型智商。
  • MCP 作为连接组织:Anthropic 推出的 MCP(Model Context Protocol,类比为“USB-C for AI”)正迅速成为 Agent 连接外部工具的标准协议,并获得了 OpenAI、Microsoft 等大厂的公开拥抱,甚至推动了 Linux Foundation 成立新的 Agentic AI Foundation 以加速标准化。
  • 安全挑战与增强模式:随着 Agent 深入企业应用(Gartner 预测 2026 年底 40% 企业应用将集成 Agent),安全隐患(如内部人威胁)日益受到关注。目前 Agent 更可能以“增强人类工作流(Augmentation)”的形式大规模应用,而非完全替代。

工具、开源与开发者生态

  • 开源代码助手与自托管:出于隐私与可控性考量,开源/自托管代码助手(如 Continue、Tabby、Aider)在 2026 年持续升温。
    • Tabby:主打自托管与团队治理,适合对代码安全敏感的企业。
    • Aider:代表了终端式、跨文件协同修改的“Agent-like coding”趋势,能直接生成 git commit。
  • “Vibe Coding” 的双刃剑:Stack Overflow 讨论了非程序员用自然语言生成应用(Vibe Coding)的现状——虽然能快速构建原型,但也容易引入安全漏洞、维护性差与缺乏测试等“生产力税”。
  • NVIDIA 的开放生态:NVIDIA 发布了“开放模型 + 数据 + 工具”组合,涵盖 Nemotron(Agentic AI)、Alpamayo(自动驾驶)及 Clara(生物医药),并强调开放大规模多模态数据与训练代码,降低开发者门槛。

研究与行业回响

  • World Models:被认为是下一阶段的关键抓手,旨在让模型通过学习 3D/交互世界来支持更可靠的长期规划与行动,预计将在游戏与仿真环境中率先爆发。
  • 行业担忧:文化产业对 AI 冲击的担忧仍在持续,如 Sting 公开表达了对音乐与影视行业中“声音/形象滥用”的忧虑。