日常想法随手记-2026

2026-03-08

GPT-5.4 Pro（xhigh）在 CritPt 基准测试中取得把最高分从9分（去年11月份，来自Gemini 3 pro preview）提高了10分到19分(GPT-5 (high) 仅达到 5.7%)。CritPt 是一个使用私有数据集的基准测试，用于测试在研究级物理推理任务上的性能。国产最高分是DeepSeekV3.2 Speciale（7.4分）。详情可以参考CritPt Benchmark Leaderboard

2026-03-07

最近达利欧表达了一个对比中美在AI开发和使用上的观点很有意思：

美国模式：以利润为导向，投入巨额资本建设 AI 基础设施，再通过收费产品/服务收回投资。
中国模式：把 AI 视为公共基础设施，用开源+低价甚至免费的方式最大化普及率，借大规模使用直接拉动生产力。

所以达利欧质疑：当中国愿意牺牲利润换普及，砸下重金的美国公司如何还能竞争？

2026-03-06

现在Langraph可以作为外层编排/运行时（runtime & orchestration），把 AutoGen 的 agent 当成一个“节点能力”来调用。参考链接,这个方法还可以延伸到使用别的agent。

flowchart TB
  %% =========================
  %% High-level: runtime + deployment
  %% =========================
  U[用户/客户端<br/>发送消息] -->|HTTP/WebSocket| S[LangGraph Server / App Runtime]
  S --> G[LangGraph Graph 执行引擎<br/>StateGraph + MessagesState]
  G <--> CP[Checkpointer<br/>MemorySaver / 持久化存储<br/>按 thread_id 读写状态]
  
  %% =========================
  %% Graph structure: START -> autogen node
  %% =========================
  subgraph GRAPH[Graph 结构]
    START((START)) --> N1[节点: autogen<br/>call_autogen_agent]
  end
  
  G --> START
  
  %% =========================
  %% Node internals: bridge LangGraph <-> AutoGen
  %% =========================
  subgraph BRIDGE[桥接层: LangGraph ↔ AutoGen]
    N1 --> M1[读取 state.messages<br/>对话历史]
    M1 --> M2[convert_to_openai_messages<br/>转换为 OpenAI messages]
    M2 --> L1[拆分消息<br/>last_message 与 carryover]
    L1 --> A0[AutoGen 运行时]
    
    subgraph AUTOGEN[AutoGen 侧]
      A0 --> UP[user_proxy: UserProxyAgent<br/>human_input_mode=NEVER<br/>可配置代码执行]
      UP -->|initiate_chat<br/>message + carryover| AA[autogen_agent: AssistantAgent]
      AA --> RSP[response.chat_history<br/>生成最终答复]
    end
    
    RSP --> O1[提取 final_content<br/>取最后一条 content]
    O1 --> O2[封装回 LangGraph 消息<br/>role=assistant + content]
    O2 --> NRET[返回并更新 state.messages]
  end
  
  %% =========================
  %% Streaming / response back
  %% =========================
  NRET -->|graph.stream 输出 chunk| OUT[流式/分块输出给客户端]
  OUT --> U
  
  %% =========================
  %% Deployment lane
  %% =========================
  subgraph DEPLOY[部署到 LangSmith 生产环境]
    FS[项目结构<br/>agent.py / requirements.txt / langgraph.json] --> CLI[langgraph deploy<br/>--config langgraph.json]
    CLI --> LS[LangSmith 托管与观测<br/>Traces / Eval / Datasets / Prompts]
  end
  
  LS -->|线上请求| S
  
  %% =========================
  %% Notes
  %% =========================
  CP -. 关键点 .-> NOTE1[LangGraph 负责持久化/线程记忆<br/>AutoGen 通过 carryover 显式获得上下文]
  LS -. 关键点 .-> NOTE2[LangSmith 提供生产能力<br/>可观测/评估/部署/版本管理]

2026-01-18

2026-01-12

可以考虑开发一个评估工具，不是评估一个人的IQ或技能熟练度，而是评估其**“AI协作商” (AI-Q)**。该指数衡量一个人利用AI工具将抽象想法转化为具体成果的效率。它包括三个维度：

Prompt Artistry (提示词艺术)：与机器沟通意图的精准度。
Synthesis Cap (综合能力)：跨学科连接知识的能力（因为AI负责垂类深度，人负责广度连接）。
Taste/Curation (品味/策展)：在AI生成的成百上千个方案中，识别出最优解的审美判断力。

2026-01-10

Google Antigravity 平台已与 Sonatype 的 Guide 安全工具集成,帮助 AI 编码代理避免引入存在漏洞或恶意的代码依赖项,此次合作解决了日益增长的担忧,即 AI 驱动的编码助手虽然能加速软件开发,但可能会无意中将安全漏洞引入生产系统。我的经验是，目前AI编码工具可能会自信地推荐过时或存在安全隐患的软件包,因为它们的训练数据无法反映当前生态系统的实际状况。而开发者在开发阶段更注重先让软件跑起来，而把第三方包的安全问题留到生产部署时才考虑。Sonatype的MCP 服务器可持续提供组件健康状况、安全风险以及更安全替代方案的情报。个人开发者和公司开发在实际开发中也要关注类似的问题。用开源项目并积极参与其中也是一个方法，用AI自己设计一个类似的工具是另一个方法。

2026-01-03

回头看看AI辅助编程能力的快速演进：2022年，AI能够完成单行代码；2023年，能够完成整个代码段；到2024年，可以跨多个文件工作；而到2025年，它们可以创建和重构整个代码库。现在我每天用AI Vibe Coding，Review, Refactor, Doc, TDD, SRE，Deploy。多Agent，多Repo的并发已经变成常态，而我才是那个真正的瓶颈所在。

Claude Code的创建者Boris Cherny在12月下旬分享说，在过去30天里，他对该项目的100%贡献——259个拉取请求和大约40,000行代码——完全是由Claude Code使用Opus 4.5模型编写的。Anthropic首席执行官Dario Amodei在2025年10月表示，他公司的大多数团队现在使用Claude编写90%的代码。

谷歌在2025年7月披露，AI现在编写公司约50%的新代码，高于2024年底报告的25%。这一转变正在重塑软件构建方式，开发人员越来越多地充当AI生成代码的审查者和协调者，而不是自己编写每一行代码。

2026-01-02

谷歌的一位首席工程师在x上发帖称,Claude Code在一小时内生成了一个分布式代理编排系统——一种协调多个AI代理的软件——与她的团队自去年以来一直在构建的系统相匹配。（需要注意的是谷歌是 Anthropic 的主要投资者,已向这家公司投资约30亿美元。2025 年10月,谷歌同意向 Anthropic 提供多达一百万个专用张量处理单元,交易价值达数百亿美元。

2026-01-01

2026新年伊始，AI 圈的主线正从“更大模型的炫技”转向“可落地的系统化能力”。多家观点将 2026 定义为从“Hype to Pragmatism”的转折点：更少强调无止境的 parameters scaling，转而聚焦于小模型（SLM）、World Model、以及让 Agents 真正接入业务系统的标准化接口与治理。

大模型：架构创新与专用化

路线修正：趋势从“暴力扩参”转向“研究新架构 + 在合适场景用更小/更专用的模型”，强调成本、延迟、可控性与可部署性。scaling law 的边际收益递减使得架构创新（如对 World Models 的探索）变得更加关键。
SLM 的崛起：产业侧对“领域微调的小模型（SLM）”兴趣显著上升，它们能以更低成本达到特定任务所需的精度，且天然契合边缘计算与本地部署（Device-side AI）的需求。
物理 AI (Physical AI)：配合边缘计算，物理 AI（设备端、可穿戴、机器人、自动驾驶等）被视为 2026 重要的落地方向，NVIDIA 发布的 Cosmos（物理 AI）、Isaac GR00T（机器人）等开放模型家族正是由于此趋势驱动。

Agents：连接标准与生产环境

落地的“最后一公里”：2025 年 Agent 难以落地的核心痛点在于缺失与真实系统（数据库、API、权限体系）的低摩擦连接。2026 的关键在于解决这些工程化挑战，而非单纯提升模型智商。
MCP 作为连接组织：Anthropic 推出的 MCP（Model Context Protocol，类比为“USB-C for AI”）正迅速成为 Agent 连接外部工具的标准协议，并获得了 OpenAI、Microsoft 等大厂的公开拥抱，甚至推动了 Linux Foundation 成立新的 Agentic AI Foundation 以加速标准化。
安全挑战与增强模式：随着 Agent 深入企业应用（Gartner 预测 2026 年底 40% 企业应用将集成 Agent），安全隐患（如内部人威胁）日益受到关注。目前 Agent 更可能以“增强人类工作流（Augmentation）”的形式大规模应用，而非完全替代。

工具、开源与开发者生态

开源代码助手与自托管：出于隐私与可控性考量，开源/自托管代码助手（如 Continue、Tabby、Aider）在 2026 年持续升温。
- Tabby：主打自托管与团队治理，适合对代码安全敏感的企业。
- Aider：代表了终端式、跨文件协同修改的“Agent-like coding”趋势，能直接生成 git commit。
“Vibe Coding” 的双刃剑：Stack Overflow 讨论了非程序员用自然语言生成应用（Vibe Coding）的现状——虽然能快速构建原型，但也容易引入安全漏洞、维护性差与缺乏测试等“生产力税”。
NVIDIA 的开放生态：NVIDIA 发布了“开放模型 + 数据 + 工具”组合，涵盖 Nemotron（Agentic AI）、Alpamayo（自动驾驶）及 Clara（生物医药），并强调开放大规模多模态数据与训练代码，降低开发者门槛。

研究与行业回响

World Models：被认为是下一阶段的关键抓手，旨在让模型通过学习 3D/交互世界来支持更可靠的长期规划与行动，预计将在游戏与仿真环境中率先爆发。
行业担忧：文化产业对 AI 冲击的担忧仍在持续，如 Sting 公开表达了对音乐与影视行业中“声音/形象滥用”的忧虑。