首页 > 科技快讯 > Codex不打算让Claude Code好过

Codex不打算让Claude Code好过

晰数塔互联网快讯
2026-03-14 15:44

（来源：硅星人）

作者｜周一笑

邮箱｜ zhouyixiao@pingwest.com

2月6日，OpenAI总裁Greg Brockman在X上公开发了一条面向全公司工程团队的帖子，设了一个deadline：到3月31日，任何技术任务，工程师的第一工具应该是agent，而不是编辑器或终端。

这是OpenAI对自己下的动员令。

如果只看这句话，你可能会觉得又是一条硅谷式的愿景声明。但接下来六周发生的事情表明，Brockman不是在喊口号。OpenAI的Coding Agent平台Codex，正在经历一轮罕见的产品冲刺，密度之高，节奏之快，甚至让一些长期关注AI编码工具的开发者开始重新审视自己的工具链。

与此同时，Codex在程序员群体中的热度和口碑也在肉眼可见地上升。

一切动作都指向“狙击”Anthropic 如日中天的Claude Code。

六周的疯狂迭代

拉一下时间线就能感受到这个节奏。

2月2日，Codex桌面App发布（macOS），OpenAI同时宣布向ChatGPT免费和Go用户开放Codex，所有付费用户的速率限制翻倍。

2月5日，GPT-5.3-Codex发布，OpenAI称它为"第一个帮助创造了自身的模型"。同一天，Anthropic发布Claude Opus 4.6。

2月12日，Codex-Spark发布，与AI推理硬件公司Cerebras合作，推理速度超过每秒1000 tokens。OpenAI的说法是，“当模型能力越来越强，交互速度就成了明确的瓶颈。”

2月14日，OpenClaw创始人Peter Steinberger宣布加入OpenAI。据Pragmatic Engineer报道，Steinberger用Codex编写了OpenClaw的全部代码，偏好长时间运行的agentic loop。Sam Altman在X上称他为“天才”，说他将“推动下一代personal agents”。

3月4日，Codex桌面App登陆Windows。

3月5日，GPT-5.4发布，是OpenAI第一个同时具备reasoning、coding和原生computer use能力的通用模型，在Codex和API中支持100万token上下文。

3月6日，Codex Security进入research preview。这是OpenAI推出的应用安全代理，前身为内测阶段的Aardvark，能够分析代码仓库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。过去30天的beta测试中，它扫描了超过120万次commits，发现792个critical级别漏洞和超过10000个高危问题，覆盖OpenSSH、GnuTLS、Chromium等重量级开源项目。误报率降低超过50%，噪音降低84%。

使用数据也在同步攀升。Sam Altman在X上确认，Codex的周活用户自年初以来增长超过三倍；Codex团队负责人Thibault Sottiaux（Tibo）告诉Pragmatic Engineer的Gergely Orosz，1月以来它的使用量增长了5倍，周活开发者超过100万。Tibo还在播客中提到，Super Bowl周日播出的Codex广告让系统几乎立即承受了巨大负载。

六周，七次重大产品动作，这成了OpenAI在产品上最激进的冲刺之一。

要理解这个节奏，一方面要看供给侧的变化。GPT-5系列模型的agent能力在过去几个月出现了质的飞跃，从上下文窗口、工具调用到长时间自主执行，模型本身的能力到了一个可以支撑Coding Agent这个产品形态的临界点。

另一方面，需求侧的信号同样强烈。据SemiAnalysis报道，Anthropic的Claude Code已经做出25亿美元的年化收入，占其企业收入的一半以上。Claude Code用真金白银证明了Coding Agent可以成为AI公司的核心收入引擎。对于估值据报已达数千亿美元的OpenAI来说，放弃这个赛道不是一个现实的选项。

根据SemiAnalysis的预测AnthropicARR增速一度超过OpenAI

时间点上的贴身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天发布。Codex Security和Claude Code Security几乎同期推出。这种节奏本身就是信号，两家公司正在把Coding Agent平台视为正面战场。

开发者开始从Claude Code的单一模式变成混合模式

在很长一段时间，Anthropic旗下的Claude Code看起来似乎已经没有了对手，用户对它的依赖变得越来越重。而OpenAI显然不想让Anthropic 这么舒服。在Codex的一通激进冲刺后，开发者社区的反应也开始发生一些变化。

过去一个月，Reddit和Hacker News上关于Codex和Claude Code的讨论，出现频率最高的词不是更好或替代，而是stacking。也就是说，越来越多的开发者不是在两者之间选择，而是同时使用。

Calvin French-Owen是一个典型案例。他是Segment联合创始人，曾在OpenAI参与Codex web产品的发布，同时也是Claude Code的深度用户。他在今年2月写的一篇博客里说，自己选择工具的核心标准是“我有多少时间，以及我想让它多自主地跑”。

他的日常工作流是用Claude Code做规划、编排终端和管理git操作，然后切到Codex做实际编码。他说Opus在跨上下文窗口的工作中效率更高，会同时启动多个子代理并行探索代码库；而Codex在长时间自主编码任务上更稳定。

Reddit上也出现了更具体的分工模式。有开发者详细描述了一个五段式workflow，先让Claude Code出计划，再让Codex review计划，然后由Claude实施，最后交给Codex做code review和QA迭代。还有人直接把Claude Code和Codex串成了一个CLI bridge，因为手动在两者之间复制粘贴太累了。

一篇社区分析总结了500多条Reddit评论后的结论，Claude Code在一组小样本盲测中胜率达到67%，质量更高；但Codex 20美元的套餐能编码一整天不断，而Claude Code同价位十几个prompt就用完了。“Claude Code质量更高但用不完，Codex稍弱但全天能用”，这是2026年3月开发者社区最真实的共识。

在Cursor官方的benchmark中，GPT系列整体领先其他模型。

开发者社区还流传着一个比喻来描述两者的气质差异，Claude像美国人，适合做充满创造力的探索和头脑风暴，Codex像德国人，代表极致的效率和专注执行。“它就像一条咬住骨头不放的狗，非常固执，会一直尝试直到解决问题。”

当然也有反面声音。Hacker News上有开发者说Codex对自己来说“每一项都比Claude Code差”，尤其是code review会制造看似合理但实际不存在的问题，他最后只把Codex用来复核Claude的产出。

但大方向已经很明确了，社区讨论正在从哪个更好就用哪个，变成两个都用，各占一个工位。

比的不再是benchmark，是谁是更实用的产品

只看模型benchmark，你不太容易理解Codex为什么起势。在SWE-Bench这类编码评测上，Claude Opus 4.6仍然领先。真正让Codex拉开差异的地方在别处，OpenAI正在围绕它构建一整套工程系统。

Orosz今年2月发表了一篇对Codex团队的深度报道。其中最引人注目的事实是，Codex超过90%的代码是由Codex自己编写的。Anthropic方面也有类似的说法，Claude Code的创建者Boris Cherny告诉Orosz，Claude Code的数据大致相当。

当然，这里的90%需要打个折扣理解，在一个成熟项目中，样板代码、测试用例、常规重构占了大量行数，核心架构决策仍然由人来做。但两家AI实验室都在用自己的coding 工具来编写自己的coding 工具，这种自举本身就说明了这些工具已经深度嵌入了日常工程流程。

Codex 的基本工作原理

Codex团队在工程组织层面走得更远。Orosz的报道描述了一种新的工作方式，Codex团队的典型工程师同时运行4到8个并行agent，分别处理feature开发、code review、安全审计、代码库理解、bug修复等任务。工程师的角色正在从写代码的人变成管理agent的人。

技术选型上，Codex CLI选择了Rust（Claude Code使用的是TypeScript）。团队负责人Tibo给出的理由不仅是性能和正确性，还有工程文化，选择Rust是为了给团队设定一个高工程标准，同时减少对npm依赖生态的依赖。他们甚至招募了Rust终端UI库Ratatui的维护者全职加入团队。

更值得关注的是分层代码审查机制。Codex团队训练了一个定制的code review模型，据Tibo说约9/10的评论能指出有效问题。审查分两层，非关键代码在AI review后可以直接merge，核心agent代码和开源组件仍然要求强制人工审查。这套机制的意义在于，审查本身开始分层了。

还有两个细节能说明Codex正在从工具走向系统。Codex可以运行自己的完整测试套件来测试自身；团队还设置了夜间巡检，让Codex自动扫描代码库并生成待审修复建议，工程师每天早上进公司时就有一批修复等着review。

一家名为Wonderful的AI开发公司的首席架构师在今年3月写了一篇文章，描述了他们四个月前禁止手动coding后的经验。他对两个工具的定位是，Codex是坐在房间后面戴耳机的工程师，默默读完你整个代码库15分钟才写第一行代码，Claude则更有产品感，更擅长判断什么感觉对。他们把Codex用于低延迟系统工作、实时语音管线、性能敏感代码，Claude则用于UI和前端。

从coding工具到Agent平台

拉远来看，Codex六周冲刺的方向指向一个更大的野心。

Peter Steinberger的加入是一个人事信号。他日常同时并行5到10个agent，加入OpenAI后的方向是下一代personal agents，不是coding工具。OpenAI正在用Codex作为agent战略的入口。

Codex Security则是另一个方向的延伸。当Codex从帮你写代码走向帮你审计安全，它的定位就已经变了。

GPT-5.4进一步加速了这个转变。作为OpenAI第一个具备原生computer use能力的通用模型，它在Codex中不仅能写代码，还能操作电脑、跨应用执行工作流。配合正在成型的插件/skills生态系统和企业级权限管理，Codex的轮廓越来越像一个AI原生的开发平台。

Codex团队在Every的播客中透露了他们眼中的下一个瓶颈，就是代码审查。

模型生成代码的速度已经远超人类review的速度，验证产出的正确性成了最紧迫的问题。他们已经在尝试让模型通过重现用户操作路径来“证明”修复有效，而不是让人类逐行读代码。

这些野心和Claude Code已经越来越清楚的发展方向有很多重合，在从Claude Code那里迅速抢走了一些用户和使用场景之后，Codex的势头正在起来。回到Greg Brockman 2月6日的那条帖子。他设的deadline是3月31日，目前距离deadline还有两周多，而从过去六周的节奏来看，Codex的冲刺还远没有结束。

OpenAI把曾经在模型上呈现出的狠劲儿和卷王的气质，都放到了Codex上，接下来它和Claude code之间短兵相接的故事，会更精彩了。