首页 > 科技快讯 > 「Loop 工程」火了:从写提示词,到让 AI 自动干活!

「Loop 工程」火了:从写提示词,到让 AI 自动干活!

(来源:AI信息Gap)

Claude Code 之父,不写提示词了。

Boris Cherny,Anthropic Claude Code 负责人。他说,他现在写的是「循环」。循环替他提示 Claude,决定下一步应该做什么。

同一周,此前爆火的开源 AI Agent 项目 OpenClaw 作者 Peter Steinberger 发了条帖子,说了几乎一样的话。阅读量超过 800 万。

谷歌 Chrome 工程师 Addy Osmani 写了篇长文,给这项技术起了个名字。

「Loop Engineering」。循环工程。

有了循环工程的加持,你不再是给 AI 写提示词的人。你设计一套系统,让系统替你写。

一份 11 页的技术文档把他们三位的思路和案例整合进了同一套框架。

过去两年,AI 领域的流行术语一个接一个。提示词工程、上下文工程、Harness 工程。

循环工程是最新的一个。

前三个都有一个共同的假设。你坐在电脑前,配置好工具和权限、写提示词、输入上下文,点击发送。AI 跑完一轮,停止,等你的下一条指令。

循环工程把这个假设推翻了。

比如你设置一个定时任务。AI 自动干活、检查结果,然后交付。进度会存到你的电脑里,第二天再来一遍,不需要你再按开始。

一句话总结,前三层是「手动挡」。循环工程是「自动驾驶」。你设好目的地,车自己会开。

一个循环每运行一轮,分为五步。

Addy Osmani 给自己搭建了一个循环,每天早上自动检查代码库有没有出问题。

到时间后循环先自己找活干。检查前一天的 CI 测试失败记录、未关闭的 issue、最近合并的 commit,自己判断哪些值得处理,哪些是噪音。这一步叫「发现」。

每个值得处理的发现,会分配到一个独立的 git worktree 里。worktree 是 git 自带的机制,相当于在同一个仓库里开启多个独立工作目录。多个 Agent 同时干活,互不影响。这一步叫「交接」。

一个 Agent 写修复。写完之后,另一个 Agent 对照项目的测试要求和技能文件来「验证」。通过验证才继续。

审核通过的代码自动提交 PR,没把握的扔进收件箱等人类来确定。所有进度会「存储」到一个 markdown 格式的状态文件里。明天的循环只要读这个文件,就知道前一天做到哪了。

整个过程由一个定时任务来「调度」,每天自动运行一遍。

发现、交接、验证、存储、调度。缺一不可。

AI + 一台电脑,每天早上自动就把杂活干完了。

五步里面,最容易忽略的是验证。而跳过验证的循环,几乎全都会出问题。

Anthropic 工程师 Prithvi Rajasekaran 在搭建长时间运行的 AI 应用时发现,让 Agent 给自己刚写的代码打分,它几乎总是给好评。哪怕人类一眼就能看出质量一般,Agent 也会自信地说没问题。

原因不是 Agent 不够聪明,这是结构性幻觉。写代码的 Agent 脑子里装满了自己的推理过程。它看自己的输出时,满脑子都是「我为什么这么写」的推理逻辑。这些理由反过来强化了它的判断。

就像你给自己的作品打分。

解决思路借鉴了 GAN(对抗生成网络)的思路。一个 Agent 负责写,另一个 Agent 专门负责找茬。

验证 Agent 上来就假设代码有问题,除非能证明没问题。它不只是读,还会运行代码,打开页面、点击按钮、截屏、跑测试。检查的是代码的实际效果。

Prithvi Rajasekaran 在研究中发现一件反直觉的事。让写代码的 Agent 变得更加自我批评,效果很差。但训练一个独立的验证 Agent 变得更挑剔,容易得多。你改变不了作者的自恋,但你可以换一个毫无感情的陌生人来审稿。

Claude Code 里有一个命令叫 /goal。你给它一个目标,比如「通过所有测试和代码规范检查」。它会一直运行直到满足要求。每一轮结束,一个独立的小模型会来判断条件是否成立。写代码的那个模型和判断「完成了没」的模型,是独立的。

循环很容易翻车。最常见的是不会说「不」。

Agent 写了代码,自己说好。循环相信了,继续下一轮。跑了几百轮,每一轮都通过。

正常来说不可能每次都对。能次次通过的原因只有一个,根本就没有真正的检查。

这种循环叫「点头循环」。

第二常见的翻车原因是失忆。今天跑的结果留在了对话窗口里,明天上下文被清空,循环从头开始。更糟的情况是,它发现了昨天已经修复的问题,又重新修了一遍,可能还和昨天的修复产生了冲突。

还有其他三个坑。没设置定时器,你哪天忘了手动跑一次,它就停了,这叫「手动循环」。设置了定时器,但每天干什么还得你来安排,等于还是你在手动指挥,「盲循环」。多个 Agent 同时修改同一个目录,文件冲突,合并不了,「缠绕循环」。

这五种翻车情况不是独立的,它们可能一起出现。

在线支付平台 Stripe 内部有一个系统叫「Minions」。每周超过 1300 个由 AI 提交的 PR 被合并,没有一行代码是手动写的。

触发方式是 Slack 里的一个 emoji。程序员在频道看到一个 bot 的建议,点击一下这个表情,循环就启动了。

Stripe 工程师 Steve Kaliski 在一期播客里介绍了 Minions 的架构,底层用的是开源 Agent 框架 Goose 的定制版本。

核心思路是,「能用规则写死的步骤就写死,AI 只负责需要创造力的部分。」比如 Agent 写完代码,一个固定的流水线运行代码规范检查。Agent 把问题修复后,一个固定的步骤执行 commit。能用规则搞定的事,绝不交给模型。

靠不靠谱,看的是约束写得够不够严格,而不是模型参数有多大。

沙箱环境在云端随用随建,用完就可以扔了。一次可以运行上千个 Agent,互不干扰。

1300 个 PR,最终仍然由人类审核。程序员没有离开,只是从写代码的岗位换到了审代码。

Anthropic 也一样。程序员每天合并的代码量是 2024 年的 8 倍。Anthropic 自己也说,这个数字「几乎肯定高估了真实的生产力提升」。但大方向没问题。

你的第一个循环应该小到几乎不像一个系统。

首先需要一个定时器让它自动运行起来。Claude Code 用 /loop,OpenAI Codex 用 Automations。没有定时器,你有的只是一个每次都要手动运行的脚本。

然后是一个 SKILL.md 文件,它告诉循环应该关注什么。这是一个 markdown 格式的文件,记录 CI 错误日志、最新的 issue、最近的 commit。可以维护、复用,比一大段写死的指令好用得多。

状态文件负责记录进度,让明天的循环从今天停下的地方继续。worktree 让并行的 Agent 互不影响。/goal 设置一个停止条件,让另一个模型来判断到底达标了没有。

最后一步是人类审核。PR 自动提交,但永远不自动合并。

你可以先手动运行一遍,确认没问题。然后写成 SKILL.md,加上循环,设置定时器。

「自动驾驶」省力。但在高速上,你不能睡着。

搭建循环,但别把你的判断也交出去。

我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

相关推荐

「Loop 工程」火了:从写提示词,到让 AI 自动干活!
2026年玩AI必备技能:不是提示词,是循环工程
我从顶级的提示词工程团队那里学到了什么?
DeepSeek R1之后,提示词技巧还有用吗?
你辛苦写的AI提示词,是否属于商业秘密?
OpenAI 发布 GPT 提示词工程指南
0提示词就能续写小说!彩云科技首创DCFormer架构大模型,AI秒变网文产粮神器
AI提示词工程师:新兴职业还是过眼云烟?
AI圈都在说的新词harness,没你想的那么神秘
给论文植入“求好评”提示词,是AI时代的魔法对轰吗?

网址: 「Loop 工程」火了:从写提示词,到让 AI 自动干活! https://m.xishuta.cn/newsview150949.html

所属分类:行业热点