TL;DR

这份来自OpenAI的指南阐述了通过将复杂的编码智能体集成到软件开发生命周期(SDLC)中,来实现构建人工智能原生工程团队的转变。文献强调AI模型已超越基本的自动补全功能,现在能够进行持续数小时的推理,从而处理复杂的、多步骤的工程任务。它系统地分析了AI辅助如何彻底改变SDLC的各个阶段,涵盖了从规划和设计蓝图到生成完整的构建实施、测试以及操作维护。通过将起草测试、处理样板代码和进行初步代码审查等机械性工作授权给智能体,团队的工作效率得到大幅提升。这种转变使工程师能够将注意力集中于高级架构、系统推理和产品意图,保持对关键战略决策和最终代码质量的最终所有权。

简介

AI 模型能够执行的任务范围正在迅速扩大,这对工程领域产生了深远的影响。前沿系统现在能够维持数小时的推理:截至 2025 年 8 月,METR 发现领先的模型可以完成 2 小时 17 分钟的连续工作,并以大约 50% 的置信度得出正确答案。

这种能力正在迅速提升,任务长度大约每七个月翻一番。仅在几年前,模型只能处理大约 30 秒的推理——这足以用于小型的代码建议。而今天,随着模型能够维持更长的推理链,整个软件开发生命周期(SDLC)都已进入 AI 辅助的视野,使编码智能体(Coding Agents)能够有效地通过规划、设计、开发、测试、代码审查和部署等环节做出贡献。

image 在本指南中,我们将分享真实的案例,概述 AI 智能体如何为软件开发生命周期做出贡献,并为工程领导者提供切实可行的指导,帮助他们从今天开始打造 AI 原生团队和流程。

AI 编码:从自动补全到智能体

AI 编码工具已经远超其作为自动补全助手的起源。早期的工具主要处理快速任务,例如建议下一行代码或填充函数模板。随着模型获得更强的推理能力,开发者开始通过 IDE 中的聊天界面与智能体互动,进行结对编程和代码探索。

今天的编码智能体可以生成整个文件、搭建新项目骨架,并将设计转化为代码。它们可以推理多步骤问题,如调试或重构,智能体的执行也正在从单个开发者的机器转移到基于云的多智能体环境。这正在改变开发者的工作方式,使他们花在 IDE 内部生成代码的时间更少,而花在委派整个工作流上的时间更多

能力带来的赋能
跨系统统一上下文单个模型可以读取代码、配置和遥测数据,提供跨越以往需要分离工具的层级的一致推理。
结构化工具执行模型现在可以直接调用编译器、测试运行器和扫描器,生成可验证的结果,而不仅仅是静态建议。
持久的项目记忆长上下文窗口和压缩(compaction)等技术允许模型跟踪功能从提案到部署的全过程,记住之前的设计选择和约束。
评估循环模型输出可以针对基准(单元测试、延迟目标或风格指南)进行自动测试,因此改进是基于可衡量的质量之上的。

在 OpenAI,我们亲眼目睹了这一点。开发周期已经加速,曾经需要数周的工作现在几天就能交付。团队在不同领域间移动更加容易,能更快地熟悉陌生项目,并在整个组织中以更高的敏捷性和自主性运作。许多常规且耗时的任务,从为新代码编写文档、展示相关测试,到维护依赖项和清理特性开关(feature flags),现在都完全委托给了 Codex。

然而,工程的某些方面保持不变。代码的真正所有权——尤其是针对新的或模糊的问题——仍然归工程师所有,某些挑战也超出了当前模型的能力。但有了像 Codex 这样的编码智能体,工程师现在可以将更多时间花在复杂和新颖的挑战上,专注于设计、架构和系统级推理,而不是调试或死记硬背的实现

在接下来的部分中,我们将分解 SDLC 的每个阶段如何随着编码智能体而改变,并概述您的团队可以采取的具体步骤,开始像一个 AI 原生工程组织那样运作。

1. 规划 (Plan)

组织内的团队通常依赖工程师来确定功能是否可行、构建需要多长时间以及涉及哪些系统或团队。虽然任何人都可以起草规范,但制定准确的计划通常需要对代码库有深刻的认识,并与工程部门进行多轮迭代,以发现需求、澄清边缘情况并在技术现实上达成一致。

编码智能体如何提供帮助

AI 编码智能体在规划和范围界定期间为团队提供即时、基于代码的洞察。例如,团队可以构建工作流,将编码智能体连接到其问题跟踪系统,以读取功能规范,将其与代码库进行交叉引用,然后标记歧义、将工作分解为子组件或估算难度。

编码智能体还可以即时跟踪代码路径,显示功能涉及哪些服务——这类工作以前需要数小时甚至数天的人工挖掘大型代码库才能完成。

工程师转而做什么

团队将更多时间花在核心功能工作上,因为智能体提供了以前需要通过会议进行产品对齐和范围界定才能获得的上下文。关键的实现细节、依赖关系和边缘情况在前期就被识别出来,从而通过更少的会议实现更快的决策。

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: AI 智能体可以对可行性和架构分析进行第一轮处理。它们读取规范,将其映射到代码库,识别依赖关系,并提出需要澄清的歧义或边缘情况。

审查: 团队审查智能体的发现以验证准确性,评估完整性,并确信估算反映了真实的技术约束。

拥有: 故事点(Story point)分配、工作量评估和识别非显而易见的风险仍然需要人类的判断。战略决策——如优先级排序、长期方向、排序和权衡——仍然由人类主导。团队可以向智能体询问选项或后续步骤,但规划和产品方向的最终责任在于组织

启动清单

  • 识别需要功能和源代码之间对齐的常见流程。常见领域包括功能范围界定和工单创建。
  • 从实施基本工作流开始,例如对问题或功能请求进行标记和去重。
  • 考虑更高级的工作流,例如根据初始功能描述向工单添加子任务。或者当工单达到特定阶段时启动智能体运行,用更多细节补充描述。

2. 设计 (Design)

设计阶段通常会被基础设置工作拖慢。团队花费大量时间编写样板代码、集成设计系统以及完善 UI 组件或流程。模型图(mockups)与实现之间的不一致会导致返工和长反馈周期,而探索替代方案或适应不断变化的需求的带宽有限,会延迟设计验证。

编码智能体如何提供帮助

AI 编码工具通过搭建样板代码、构建项目结构以及即时实现设计令牌(design tokens)或风格指南,极大地加速了原型设计。工程师可以用自然语言描述所需的功能或 UI 布局,并获得符合团队惯例的原型代码或组件存根。

它们可以将设计直接转换为代码,建议可访问性改进,甚至分析代码库中的用户流程或边缘情况。这使得在数小时而不是数天内迭代多个原型成为可能,并且能够在早期进行高保真原型设计,为团队提供更清晰的决策依据,并使客户测试在流程中更早进行。

工程师转而做什么

随着常规设置和转换任务由智能体处理,团队可以将注意力转移到更高杠杆的工作上。工程师专注于完善核心逻辑,建立可扩展的架构模式,并确保组件符合质量和可靠性标准。设计师可以花更多时间评估用户流程和探索替代概念。协作的重心从实现开销转移到了改进底层产品体验上。

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: 智能体通过搭建项目、生成样板代码、将模型图转换为组件以及应用设计令牌或风格指南来处理初始实现工作。

审查: 团队审查智能体的输出,以确保组件遵循设计惯例,符合质量和可访问性标准,并与现有系统正确集成。

拥有: 团队拥有总体设计系统、UX 模式、架构决策以及用户体验的最终方向。

启动清单

  • 使用接受文本和图像输入的多模态编码智能体。
  • 通过 MCP(模型上下文协议)将设计工具与编码智能体集成。
  • 通过 MCP 以编程方式公开组件库,并将它们与您的编码模型集成。
  • 构建映射流程:设计 → 组件 → 组件的实现。
  • 利用类型化语言(如 Typescript)为智能体定义有效的属性和子组件。

3. 构建 (Build)

构建阶段是团队感受到最大阻力的地方,也是编码智能体影响最明显的阶段。工程师花费大量时间将规范转化为代码结构,连接服务,在代码库中复制模式,并填充样板代码,即使是小功能也需要数小时的忙碌工作。

随着系统的增长,这种阻力会加剧。大型单体仓库(monorepos)积累了减慢贡献者速度的模式、惯例和历史遗留问题。工程师花在重新发现“正确方法”上的时间可能与实现功能本身的时间一样多。在规范、代码搜索、构建错误、测试失败和依赖管理之间不断的上下文切换增加了认知负荷——长时间任务中的中断会破坏心流并进一步延迟交付。

编码智能体如何提供帮助

在 IDE 和 CLI 中运行的编码智能体通过处理更大的、多步骤的实现任务来加速构建阶段。它们不再仅仅生成下一个函数或文件,而是可以在一次协调运行中端到端地生成完整功能——数据模型、API、UI 组件、测试和文档。凭借对整个代码库的持续推理,它们可以处理曾经需要工程师手动跟踪代码路径的决策。

通过长时间运行的任务,智能体可以:

  • 根据书面规范起草整个功能实现。
  • 在保持一致性的同时,跨数十个文件搜索和修改代码。
  • 生成符合惯例的样板代码:错误处理、遥测、安全包装器或风格模式。
  • 在构建错误出现时即时修复,而不是停下来等待人工干预。
  • 作为单一工作流的一部分,与实现一起编写测试。
  • 生成符合内部指南并包含 PR 信息的、可直接进行差异比较(diff-ready)的变更集。 实际上,这将大部分机械的“构建工作”从工程师转移到了智能体身上。智能体成为第一轮实现者;工程师成为审查者、编辑和方向的来源。

工程师转而做什么

当智能体能够可靠地执行多步骤构建任务时,工程师将注意力转移到更高阶的工作上:

  • 在实现之前澄清产品行为、边缘情况和规范。

  • 审查 AI 生成代码的架构影响,而不是执行死记硬背的连线工作。

  • 完善需要深厚领域推理的业务逻辑和性能关键路径。

  • 设计指导智能体生成代码的模式、护栏和惯例。

  • 与产品经理(PM)和设计部门合作迭代功能意图,而不是样板代码。

工程师不再是将功能规范“翻译”成代码,而是专注于正确性、连贯性、可维护性和长期质量,这些是人类背景知识仍然最重要的地方。

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: 智能体为明确指定的功能起草第一轮实现——脚手架、CRUD 逻辑、连线、重构和测试。随着长时推理能力的提高,这越来越多地涵盖完整的端到端构建,而不仅仅是孤立的片段。

审查: 工程师评估设计选择、性能、安全性、迁移风险和领域一致性,同时纠正智能体可能遗漏的细微问题。他们塑造和完善 AI 生成的代码,而不是执行机械工作。

拥有: 工程师保留对需要深刻系统直觉的工作的所有权:新的抽象、跨领域的架构变更、模糊的产品需求和长期可维护性的权衡。随着智能体承担更长的任务,工程工作从逐行实现转变为迭代监督。

案例

Cloudwalk 的工程师、PM、设计师和运营人员每天都使用 Codex 将规范转化为工作代码,无论是需要脚本、新的欺诈规则,还是几分钟内交付的完整微服务。它消除了构建阶段的繁忙工作,赋予每位员工以惊人的速度实现想法的能力。

启动清单

  • 从明确指定的任务开始。
  • 让智能体通过 MCP 使用规划工具,或者通过编写提交到代码库的 PLAN.md 文件。
  • 检查智能体尝试执行的命令是否成功。
  • 迭代 AGENTS.md 文件,解锁像运行测试和 linter 这样的智能体循环以接收反馈。

4. 测试 (Test)

开发者经常难以确保足够的测试覆盖率,因为编写和维护全面的测试需要时间、上下文切换以及对边缘情况的深刻理解。团队经常面临在快速移动和编写详尽测试之间的权衡。当截止日期临近时,测试覆盖率往往是第一个受害者

即使编写了测试,随着代码的演变保持其更新也会引入持续的阻力。测试可能会变得脆弱,因不清楚的原因而失败,并且随着底层产品的变化可能需要对其本身进行重大重构。高质量的测试能让团队以更强的信心更快地发布。

编码智能体如何提供帮助

AI 编码工具可以通过几种强大的方式帮助开发者编写更好的测试。首先,它们可以根据阅读需求文档和功能代码的逻辑来建议测试用例。模型在建议边缘情况和故障模式方面表现出色,这对于专注于功能开发且需要“第二意见”的开发者来说特别容易被忽视。

此外,模型可以帮助测试随着代码的演变而保持最新,减少重构的阻力并避免陈旧的测试变得不稳定。通过处理测试编写的基本实现细节并展示边缘情况,编码智能体加速了开发测试的过程。

工程师转而做什么

使用 AI 工具编写测试并不能消除开发者思考测试的必要性。事实上,随着智能体消除了生成代码的障碍,测试作为应用程序功能事实来源的作用变得越来越重要。由于智能体可以运行测试套件并根据输出进行迭代,因此定义高质量的测试往往是允许智能体构建功能的第一步

相反,开发者更多地专注于看到测试覆盖率中的高层模式,在模型识别测试用例的基础上进行构建和挑战。让测试编写变得更快,使开发者能够更快地发布功能,并承担更雄心勃勃的功能开发。

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: 工程师将基于功能规范生成测试用例的初步工作委派给智能体。他们还会使用模型进行第一轮测试生成。让模型在与功能实现分开的会话中生成测试通常很有帮助。

审查: 工程师必须彻底审查模型生成的测试,以确保模型没有走捷径或实施存根测试(stubbed tests)。工程师还要确保测试可以由他们的智能体运行;智能体具有适当的运行权限,并且智能体对其可以运行的不同测试套件有上下文感知。

拥有: 工程师拥有将测试覆盖率与功能规范和用户体验期望相对齐的责任。对抗性思维、映射边缘情况的创造力以及对测试意图的关注仍然是关键技能。

启动清单

  • 引导模型作为一个单独的步骤实施测试,并在进行功能实现之前验证新测试是否失败。
  • 在您的 AGENTS.md 文件中设置测试覆盖率指南。
  • 给智能体具体的代码覆盖率工具示例,它可以调用这些工具来理解测试覆盖率。

5. 审查 (Review)

平均而言,开发者每周花费 2-5 小时进行代码审查。团队经常面临选择:是投入大量时间进行深度审查,还是对看似微小的变更进行快速的“差不多就行”的通过。当这种优先级排序出现偏差时,漏洞就会溜进生产环境,给用户带来问题并造成大量返工。

编码智能体如何提供帮助

编码智能体允许代码审查过程规模化,使每个 PR 都能获得一致的基准关注。与传统的静态分析工具(依赖于模式匹配和基于规则的检查)不同,AI 审查者实际上可以执行部分代码,解释运行时行为,并跟踪跨文件和服务的逻辑。然而,要发挥作用,模型必须经过专门训练以识别 P0 和 P1 级别的漏洞,并调整为提供简洁、高信号的反馈;过于冗长的回复就像嘈杂的 lint 警告一样容易被忽略。

工程师转而做什么

在 OpenAI,我们发现 AI 代码审查让工程师更有信心,确信他们没有将重大漏洞发布到生产环境。代码审查经常会通过捕捉问题,让贡献者在引入另一位工程师之前就进行修正。代码审查并不一定能使拉取请求(Pull Request)过程更快,特别是如果它发现了有意义的漏洞——但它确实能预防缺陷和中断。

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: 智能体可以处理初步的审查工作,执行代码、检查逻辑一致性并提供初步反馈。

审查: 工程师审查智能体的反馈,过滤掉误报,并专注于更深层次的逻辑问题和架构影响。

拥有: 工程师拥有最终的合并决定权。他们负责权衡风险,判断代码是否符合长期的工程标准,并处理那些需要人类背景知识的复杂权衡。

6. 文档 (Document)

编码代理能够根据阅读代码库来高效总结功能。它们不仅能描述代码库中各部分的工作原理,还能生成诸如 Mermaid 语法的系统图。当开发人员借助代理构建功能时,只需提示模型就能更新文档。通过 AGENTS.md,每次提示时都能自动包含根据需要更新文档的说明,从而提高一致性。由于编码代理可以通过 SDK 以编程方式运行,因此也可以将其纳入发布工作流程。例如,我们可以请求编码代理审查包含在发布中的提交并总结关键更改。结果是,文档成为交付管道的内置部分:生产速度更快,保持最新更容易,并且不再依赖于某人“找到时间”。

工程师们转而做什么

工程师们从手动编写每一个文档转向塑造和监督系统。他们决定文档的组织方式,添加决策背后的重要“原因”,为代理设置明确的标准和模板,并审查关键或面向客户的部分。他们的工作变成确保文档的结构化、准确性,并将其融入交付过程中,而不是自己进行所有的打字.

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: 将低风险、重复性的工作完全交给 Codex 处理,比如文件和模块的初步摘要、输入和输出的基本描述、依赖项列表以及拉取请求更改的简短摘要。

审查: 工程师会审阅并编辑由 Codex 起草的重要文档,比如核心服务概述、公共 API 和 SDK 文档、操作手册以及架构页面,然后才会发布。

拥有: 工程师仍需负责整体文档策略和结构、代理遵循的标准和模板,以及所有涉及法律、监管或品牌风险的对外或安全关键型文档。

启动清单

  • 通过提示编码智能体来试验文档生成。
  • 将文档指南合并到您的 AGENTS.md 中。
  • 识别可以自动生成文档的工作流(例如发布周期)。
  • 审查生成内容的质量、正确性和重点。

7. 部署和维护 (Deploy and Maintain)

了解应用程序日志对软件可靠性至关重要。在事件发生期间,软件工程师会参考日志工具、代码部署和基础设施变更来确定根本原因。这个过程通常出奇地需要手动操作,并且需要开发者在不同系统之间来回切换,在像事故这样的高压情况下耗费关键的几分钟。

编码智能体如何提供帮助

使用 AI 编码工具,除了代码库的上下文之外,您还可以通过 MCP 服务器提供对日志工具的访问权限。这允许开发者拥有一个单一的工作流,他们可以提示模型查看特定端点的错误,然后模型可以使用该上下文遍历代码库并查找相关的漏洞或性能问题。由于编码智能体也可以使用命令行工具,它们可以查看 git 历史记录以识别可能导致日志跟踪中捕获的问题的具体变更。

工程师转而做什么

通过自动化日志分析和事件分类中繁琐的方面,AI 使工程师能够专注于更高级别的故障排除和系统改进。工程师不再需要手动关联日志、提交和基础设施变更,而是专注于验证 AI 生成的根本原因,设计弹性的修复方案,并开发预防措施。这种转变减少了花在被动“救火”上的时间,使团队能够将更多精力投入到主动的可靠性工程和架构改进中。

委派 (Delegate) vs 审查 (Review) vs 拥有 (Own)

委派: 许多运维任务可以委派给智能体——解析日志、展示异常指标、识别可疑的代码变更,甚至提出热修复建议。

审查: 工程师审查和完善 AI 生成的诊断,确认准确性,并批准补救步骤。他们确保修复符合可靠性、安全性和合规性标准。

拥有: 关键决策权在工程师手中,特别是对于新颖的事件、敏感的生产变更或模型置信度低的情况。人类仍然负责判断和最终签署。

案例

维珍大西洋航空(Virgin Atlantic)使用 Codex 来加强团队部署和维护系统的方式。Codex VS Code 扩展为工程师提供了一个单一的地方来调查日志,跨代码和数据跟踪问题,并通过 Azure DevOps MCP 和 Databricks Managed MCP 审查变更。通过在 IDE 内部统一这种运维上下文,Codex 加快了根本原因的发现,减少了手动分类,并帮助团队专注于验证修复和提高系统可靠性。

启动清单

  • 将 AI 工具连接到日志和部署系统:将 Codex CLI 或类似工具与您的 MCP 服务器和日志聚合器集成。
  • 定义访问范围和权限:确保智能体可以访问相关的日志、代码存储库和部署历史记录,同时保持最佳安全实践。
  • 配置提示模板:为常见的运维查询创建可重用的提示,例如“调查端点 X 的错误”或“分析部署后的日志峰值”。
  • 测试工作流:运行模拟的事件场景,以确保 AI 展示正确的上下文,准确地跟踪代码,并提出可操作的诊断。
  • 迭代和改进:从真实事件中收集反馈,调整提示策略,并随着系统和流程的演变扩展智能体能力。

结论

编码代理正在通过承担传统上拖慢工程团队节奏的机械性多步骤工作,正在改变软件开发生命周期。凭借持续的推理、统一的代码库上下文以及执行真实工具的能力,这些代理现在能够处理从范围界定和原型设计到实现、测试、审查,甚至运营分流等各种任务。工程师始终牢牢掌控架构、产品意图和质量——但编码代理越来越多地成为SDLC各阶段的首批实施者和持续协作者。

这种转变不需要彻底的改革;随着编码代理变得更强大、更可靠,小型、有针对性的工作流程会迅速积累。那些从明确任务开始、投资护栏并逐步扩大代理责任的团队,会在速度、一致性和开发者专注度上获得显著提升。

如果你正在探索编码代理如何加快你的组织进程,或正在为首次部署做准备,请联系OpenAI。我们致力于帮助您将编码代理转化为真正的杠杆——设计涵盖规划、设计、构建、测试、审查和运营的端到端工作流程,帮助您的团队采用生产环境的模式,使AI原生工程成为现实。

参考