用了两周新工具,感觉我可能回不去了
最近我干了一件大事,把我的主力AI编程助手从Claude Code换成了OpenAI家的Codex。用了两个礼拜,心里基本有数了。总的感受就是,Codex这家伙更省流量,写出来的代码质量感觉更高,而且公司 Open AI 在对待用户上,感觉比 Anthropic 要大方和靠谱得多。虽然Claude Code的插件系统确实更成熟一点,但综合来看,Codex给我的体验要好上一大截。下面我就把这两个礼拜的“心路历程”掰开揉碎了跟你们说说。
费用消耗更少能省下一个钱包
我先说最重要的事,那就是钱。我用Claude Code的时候,买的是两个Max 20x的账号,每个月得花不少银子。为啥要两个?因为它那个用量限制太烦人了,一个账号的额度根本不够我一天造的。
换到Codex之后,我买了个一百美元的ChatGPT账号,用到现在,感觉绰绰有余。而且我用的还是GPT-5.5的高强度模式,这玩意儿在Claude Code那边相当于最高档的耗能大户。但在Codex这边,它消耗的流量感觉只有Claude Code中庸模式的两到四分之一。这差距就像开一辆V8发动机的肌肉车和一辆四缸的省油小车,虽然都能跑,但加油站的账单会让你哭出来。现在我每个月能省下一个账号的钱,这感觉就像白捡的一样爽。
那为啥会差这么多呢?我觉得是两家公司在算法优化上的理念不同。GPT-5.5这个模型做事更利索,它好像能提前规划好路线,然后直奔目标。而Claude的Sonnet模型,虽然也很聪明,但在干活的时候会有点“强迫症”,喜欢在做事的过程中不停地自言自语,把它的“思考过程”全写出来。这些“废话”可都是要算钱的。这就好比你请一个话痨和一个闷葫芦给你干活,虽然活都干完了,但话痨在旁边吧嗒吧嗒说一天,你最后得按他说话的总字数付钱,这谁受得了。
用户界面适应两天也就习惯了
刚打开Codex的命令行界面,说实话,我有点懵。它的布局、操作的快捷键,甚至一些信息的展示方式,都跟Claude Code不太一样。一开始,我感觉自己像个刚学打字的新手,找个功能都要翻半天,心里还在想:“这玩意儿设计得也太反人类了吧。”
但是,人类的适应能力是很强的。我强迫自己只用Codex,大概过了两三天,就完全顺手了。等你习惯了它的逻辑之后,你会发现它并不比Claude Code难用,甚至有些地方还更顺溜。就像一个你刚认识的朋友,一开始觉得他说话方式怪怪的,处久了发现这人其实挺靠谱,性格也挺好。现在再回头看,当初觉得“难用”的印象,纯粹就是习惯问题。所以,别让前几个小时的别扭感劝退你,给它个机会,它会回报你一个更流畅的体验。
代码产出质量更高版本对决见分晓
说一千道一万,AI写代码的工具,最后还得看它生成的代码行不行。从我这两个星期的使用来看,GPT-5.5高强度模式写出来的代码,质量明显要比Claude Opus 4.7版本高出一截。Opus 4.7有时候写的代码,感觉就像个刚毕业的大学生,理论头头是道,一上手就写出一堆“玩具代码”,看着能用,实际上在错误处理、边界条件这些地方漏洞百出。
但GPT-5.5表现得更像一个成熟的架构师。它写的代码结构更清晰,逻辑更严谨。我经常是让它写一个功能模块,完事之后我一看,发现它连我没想到的异常情况都给处理好了。这种感觉很微妙,就好像从“指挥一个实习生”变成了“和一个资深工程师结对编程”。当然,Claude的模型也在进步,但就当前这个时间点,这个版本的对比,Codex是毫无疑问的赢家。特别是网上很多人都在抱怨Opus 4.7的智商好像比4.6版本还退步了,这更坚定了我远离它的决心。
运行透明度更高看清背后小动作
用AI编程助手,最怕什么?就怕它在那儿闷头干活,你不知道它在想什么,看了什么文件,下一步要干啥。Claude Code在这方面就像个黑盒子,它告诉你它在“思考”,但你根本看不到思考的细节。有时候它改错了代码,你都找不到原因,只能干瞪眼。
Codex在这方面就做得敞亮多了。它会把Agent(AI代理)的详细输出过程展示给你看,就像开了个实时监控。你能清清楚楚地看到它读了哪个文件,从里面提取了什么信息,基于什么逻辑做出了下一步的决定。这就像你雇了个装修师傅,Claude Code是关着门干活,你只能听个响;而Codex是开着门,你随时可以进去瞅一眼,看看他水电怎么走的,墙怎么砌的。这种透明度不仅让人安心,调试问题的时候也方便了无数倍。一旦它犯傻了,你马上就能顺着它的输出日志找到病根儿,然后告诉它“你丫看错文件了”或者“那个逻辑不对,重来”。这种掌控感,是至关重要的。
公司态度更友好开源与慷慨的力量
这一点可能有点主观,但我还是要说。在我眼里,Anthropic这家公司对待用户的态度,比起OpenAI来,要“有毒”得多。我说的不是它们对AI安全或者伦理的那些大道理,而是最实际的、跟咱开发者相关的事儿。
你看OpenAI,它的命令行工具是开源的。这意味着什么?意味着全世界的开发者都可以去审查它的代码,给它提PR,甚至基于它开发自己的东西。这种开放的态度,让人感觉很舒服。而且,OpenAI在过去几个月里,好几次主动给用户赠送额外的使用额度,并且重置了用量限制。这种“生怕你不够用”的服务态度,跟Anthropic那边各种严格的限制、动不动就超额的警告形成了鲜明对比。我用Claude Code的时候,总是提心吊胆,生怕用超了限额。而在Codex这边,我就感觉很放松,知道公司比较大方,不太会跟我计较那点用量。这种感觉的差异,真的很影响使用心情。
服务稳定性更好从不掉线的快乐
不知道你们用Claude Code的时候有没有遇到过服务中断。反正在我用的这段时间里,它大概每隔两三天就会给我来一次宕机。有时候我正在兴头上,让它跑一个复杂的任务,结果它突然就报错了,说是服务不可用。那种感觉,就像你打游戏马上要五杀了,结果家里突然断网了,你恨不得把键盘都砸了。
换到Codex这两个礼拜,它的服务一次都没掉过链子。无论我是白天用它,还是夜里加班到凌晨用它,它都稳稳当当地在那儿。这种稳定带来的体验提升是巨大的。你不用再担心“这个任务太长会不会半路挂掉”,也不用再因为服务中断而打断自己的工作流。对于这种生产力工具来说,可靠性就是生命线。一个老是出问题的工具,哪怕它代码写得再好,也不敢把它当成工作中的主力。OpenAI在基础设施上的投入,确实在这个时候体现出了价值。
插件生态略逊开发者的遗憾
说了Codex这么多好话,它也不是完全没有缺点。对于普通用户来说可能无所谓,但对我来说,作为一个插件开发者,确实感受到了差距。Claude Code的插件系统更加成熟,它支持的技能(skills)功能也更强大,有更多的前置元数据属性(frontmatter properties)可以配置。这意味着你可以在Claude Code上玩出更多花样,开发出功能更复杂的插件。
Codex的插件系统相比之下就显得有点“简陋”了。它能做的事情有限,对于像我这样喜欢深度定制、写插件来扩展功能的人来说,Codex的局限性让我感觉有点束手束脚。当然,对于大多数只想着“把活儿干完”的最终用户来说,这种插件生态的差距可能根本感觉不到。他们更关心的是核心的编程体验是不是够好。所以这个缺点,更多的是我们这些插件开发者、以及那些重度依赖特定插件的用户才会感受到的痛。
真实用户的智慧我该听谁的
帖子发出来后,底下评论也挺热闹。有个叫RockyMM的老哥说得比较中肯,他觉得两个工具各有长短。Claude Opus擅长推理和结构化的工作,就像一个擅长做顶层设计的架构师。而GPT-5.5在解决具体Bug方面效率更高,像一个手快的实施工程师。所以他的用法是两个都用,取长补短。
另一个叫liucianw的哥们儿则直接点出了我的“痛”处,他认为Claude Code的插件系统之所以复杂,恰恰是因为它本身不怎么听话,得靠钩子(hooks)这种复杂机制来管教它。而Codex更听话,你写在AGENTS.md文件里的规矩,它基本都会照办。这就像两个员工,一个需要你天天盯着,开会定一堆流程才能好好干活;另一个你给他发个邮件说一下目标,他就自己闷头把事情搞定了。从这个角度看,复杂的插件生态,未必是啥值得炫耀的事。这些来自真实用户的智慧,也进一步印证了我的判断:工具是死的,人是活的,怎么组合起来让自己干活最舒服,才是王道。