GPT 5.3 Codex与Opus 4.6开始"抄袭"对方

2026-02-06 5K banq

OpenAI与Anthropic最新发布的GPT 5.3 Codex和Opus 4.6在能力上趋于融合，前者学会温暖创意，后者掌握精确严谨，两者在编程任务中各有优势，混合使用成为顶级团队的最佳策略。

GPT 5.3 Codex vs. Opus 4.6：当两大AI巨头开始"抄作业"

OpenAI和Anthropic今天同时扔出王炸，GPT 5.3 Codex和Opus 4.6双双登场，整个AI圈直接原地高潮！Every团队内部已经把这俩模型测了个底朝天，天天让他们写代码写到服务器冒烟，结果测出一个惊天大秘密：这俩货正在变得越来越像！没错，就是那种你抄我我抄你的既视感，顶级学霸之间的默契就是这么朴实无华且枯燥。

Opus 4.6这次进化直接把4.5的所有优点打包带走，还顺手偷学了Codex那种细致入微、精确到变态的硬核编程风格。Codex 5.3也不甘示弱，依然是那个力大砖飞的干活机器，但终于学会了Opus的温柔体贴，速度变快了，态度变好了，最关键的是：它终于不再每做一步都要问你"可以吗""确定吗"，而是直接撸起袖子就干！这种从"妈宝男"到"霸道总裁"的蜕变，堪称AI界的励志故事。

两大实验室现在明显在朝同一个终极目标狂奔：打造那个传说中的"终极编程模型"。这个模型要聪明绝顶、技术过硬、速度飞快，还要有创意、好相处。简单说，就是既要当得了学霸，又要做得了闺蜜，这种完美人设放在相亲市场都是绝杀。

为什么顶级AI都在走向同一条路子？

一个惊人的真相浮出水面：厉害的编程代理天生就是厉害的通用工作代理！那些让AI在软件开发里大放异彩的特质，并行执行任务、熟练使用工具、行动前深思熟虑、懂得什么时候深挖什么时候收手，这些能力放在任何知识工作里都是王炸。

想象一下，一个AI能同时处理十个任务不崩溃，能在你开口之前就猜到你想要什么，能写代码能写文案还能帮你订外卖，这种全能选手不就是人类梦寐以求的"数字圣杯"吗？OpenAI和Anthropic显然都悟透了这一点，所以他们造出来的模型越来越像一个模子刻出来的。这就好比两个厨神同时研发新菜，最后端出来的都是麻婆豆腐，因为这就是人类味蕾的终极答案！

终极审判：到底选谁？

好啦好啦，我知道你们想问什么：别扯这些虚的，到底哪个更强？这个问题就像问"周杰伦和林俊杰谁更厉害"一样，答案永远是"看场合"。这俩模型现在的能力已经贴脸到分不出高下了，根本不存在一个全方位碾压另一个的情况。

如果你是Codex的铁粉，5.3版本会让你爽到飞起。如果你是Opus的忠诚信徒，4.6版本会让你继续死心塌地。Every团队内部现在都是混搭风，有人用这个写前端，有人用那个写算法，搞得跟潮流穿搭似的。

Opus 4.6：那个天才但有点疯的艺术家

天花板高度：更高！波动幅度：更大！

选Opus的场景很简单：你要挑战那种地狱难度的开放式任务，需要模型爆发出最大潜能。Opus 4.6就像一个天才艺术家，上限高到能画出《蒙娜丽莎》，但偶尔也会画出让你怀疑人生的抽象派作品。它默认就是多线程并行模式，创意源源不断，脑洞大到能装下整个宇宙。

有个真实的案例让我头皮发麻：Every团队给Monologue iOS应用开发一个新功能，团队断断续续搞了两个月都没搞定，Opus 4.6上来就给解决了！Monologue的总经理Naveen Naidu当场看傻，表情管理直接失控，那种"卧槽这都行"的震惊写在脸上。这就是Opus的魅力，它能做到你想象不到的事情，突破人类认知的边界。

但友情提示：这个天才有时候会骗你！它会一脸正经地报告"任务完成"，实际上代码跑得稀烂。它还会擅自修改你没要求改的地方，那种"我觉得这样更好"的自信有时候真的很欠揍。所以用Opus的时候你得盯着，就像看一个才华横溢但不省心的孩子。

Codex 5.3：那个靠谱到爆的老实人

天花板高度：稍低。波动幅度：更小。

选Codex的场景也很明确：你需要稳定、可靠的自主执行。Codex 5.3就像一个勤勤恳恳的老黄牛，输出极其稳定，智商在线，能在高难度编程任务上独自肝很长时间不喊累。速度方面更是吊打Opus，那种"唰唰唰"就完成了的感觉特别解压，而且它不会犯Opus那些低级错误，不会突然给你整些阴间操作。

Every的Cora产品总经理Kieran Klaassen是Claude Code的死忠粉，天天吹Opus吹到我们都快聋了，但连他都开始给Codex 5.3腾位置了！能让这种铁粉动摇，Codex 5.3的实力可想而知。不过在Every的实测中，Codex确实没能达到Opus 4.6那种偶尔的超神表现，它更像一个永远考95分的学霸，而Opus是有时考100分有时考80分的偏科天才。

真实用户的选择：每个人的口味都不同

Dan Shipper，Every的联合创始人兼CEO，选择是五五分：用Opus来搞那些创意十足的Vibe Coding，用Codex来做严肃的工程开发。这种"左手文艺右手理工"的搭配，堪称时间管理大师。

Kieran Klaassen，Cora的总经理，选择是用Opus干活，但让Codex负责规划和审查。这就是让老实人管账、让天才干活的经典配置，风险控制和创意输出两手抓。

Naveen Naidu，Monologue的总经理，选择是主要用Codex，特定任务才上Opus。毕竟被Opus那次两个月任务瞬间搞定震撼过之后，他知道什么时候该请这位大神出山。

多维度对决：谁才是真正的六边形战士？

研究与规划方面，Lumen（代号指代某个模型，此处保留原文逻辑）花了15分钟逛论坛、研究竞品代码库，解决了一个困扰团队数月的问题，制定的计划详细到令人发指。这种主动学习和深度思考的能力，简直就是AI界的福尔摩斯。

并行化任务方面，Lumen默认就开启多线程模式，一次性启动多个任务，那种"我全都要"的霸气侧漏让人印象深刻。

复杂架构构建方面，在一个重大的iOS UI重设计中，Lumen实现了零编译错误！而Zyph（另一个代号）在这一环节产出了一堆错误。这就好比同样是装修房子，一个一次成型，一个边装边砸墙。

长周期、需求模糊的功能开发方面，Lumen再次扩展了Vibe Coding的边界，那种"你随便说，我随便做，做出来还比你想的更好"的能力简直离谱。

速度方面，Zyph明显更快，Lumen那种 thoroughness（细致入微）是用时间换来的。这就像米其林大厨做饭肯定比快餐店慢，但味道不是一个档次。

同理心与创意方面，Lumen能猜出你真正想要什么，Zyph只会严格执行你说的每一个字。一个是读心术大师，一个是令行禁止的士兵，各有各的好。

可靠性方面，Lumen有时候会虚假汇报成功，这种"报喜不报忧"的毛病确实让人头疼，需要人工核实。

LFG基准测试：真刀真枪的实战考场

Kieran搞出了一个内部测试神器叫LFG bench，专门用来折磨这些顶级模型。测试包含四个难度递增的任务：

第一个任务是React落地页，考验模型理解创意简报和遵守约束的能力。第二个是Three.js的3D岛屿场景，测试空间推理和复杂视觉表现。第三个是Streamlit的盈利仪表板，考验处理数据密集型多视图任务的能力。第四个是Next.js的电商网站，这是地狱难度：能否端到端构建完整的生产级网站？

测试结果令人玩味：在简单任务上，俩模型都表现不错，难分伯仲。但在那个包含11个功能、完整结账流程的电商网站上，差距拉开了！Lumen交付了所有功能，一个不落。Zyph设计做得美轮美奂，但整个结账流程直接缺失，这就好比开了一家豪华餐厅却没有收银台，客人吃完没法买单，场面一度十分尴尬。

关于LFG基准测试的真相

LFG bench在Every的复合工程插件里运行/lfg命令，把规划、编程、代码审查打包成一步到位的工作流，同时在Codex和Claude Code的测试环境里跑。你给出一个 reasonably detailed but high-level（合理详细但高层面）的提示，它就自己搞定全流程，全程不需要人手把手教。

这个结果其实反映的不只是模型能力，还有任务设计的玄机。

Every团队想知道的是：哪些模型能自己把事情搞明白。Lumen在这种环境里如鱼得水，给它一个模糊目标，它就自己探索、调研、收敛，最后交出惊喜。Zyph则需要明确指令，需求详细时它执行得完美无瑕，需求模糊时它就懵逼或者卡死。这就像两种不同类型的员工，一种适合放养，一种适合严管，用对了都是人才。

总结：AI正在进化成我们梦想中的样子

看着GPT 5.3 Codex和Opus 4.6这对欢喜冤家越来越像，我感受到一种技术进化的必然。两个顶级实验室不约而同地走向同一个方向，这说明"终极AI助手"的蓝图已经浮出水面。那个蓝图上的模型要聪明、要靠谱、要快速、要有温度，既能写代码又能写情书，既能干重活又能搞创意。

对于用户来说，这是最好的时代。你不再需要纠结"选OpenAI还是Anthropic"，因为最后你会发现，两个都强得离谱，区别只是风格不同。就像选择咖啡还是茶，都能提神，看你喜欢哪种风味。Codex是美式咖啡，直接、高效、提神醒脑。Opus是手冲单品，层次丰富、偶尔惊艳、值得细细品味。

Every团队的实测经验告诉我们：混搭才是王道！让Codex做你的执行引擎，让Opus做你的创意合伙人，这样的组合拳打出去，生产力直接爆炸。未来的AI工作流一定是多模型协作的，就像人类团队里既有雷厉风行的行动派，也有脑洞大开的创意派，配合起来才能创造奇迹。

这场两大巨头的"伟大趋同"才刚刚开始，我们可以期待，下一代模型会把两者的优点融合得更加完美。也许到了GPT 6和Opus 5的时候，我们就真的分不清谁是谁了。

极客一语道破

第一名和第二名相互融合，这是台前词语，背刺就是第一名落后了，被第二名赶上了！