核心观点:一个被限额逼疯的程序员意外发现Codex全面吊打Claude
一位Reddit上的老哥在ClaudeCode板块发帖,标题直接开炮说Codex明显比Claude强。这位老哥被Claude的限额搞到心态爆炸,每次写代码写一半就提示额度用完,那种感觉就像你打游戏打到最后一关突然断网。他实在受不了,决定试试Codex,结果第一次用就震惊了。Codex完成任务的速度快得离谱,而且代码质量更高,几乎没有错误。这位老哥说他自己都吓了一跳,因为网上到处都在吹Claude适合规划和推理,Codex只适合执行。他一开始也信了这套说法,用Claude做规划,用Codex写代码。
但他很快发现Claude的token限额让他连规划都做不完,每次规划到一半就被掐断,气得他想砸键盘。他被迫让Codex来做规划,结果发现之前全搞错了。他拿一个一万行C++代码的中型项目做测试,同时打开Claude和Codex,输入一模一样的提示词,让两个模型分别做技术规划。Codex每次给出的方案都更好,更全面,更细致。他让两个模型互相审查对方的规划,Codex总能找出Claude方案里的漏洞和缺失,而Claude看完Codex的方案后只会说好厉害,你考虑得真周全,我完全没想到这些点。Claude连挑刺的能力都没有了。
这位老哥现在的结论非常直接,在他的实际使用场景里,Claude Code在规划、代码分析和执行三个维度上都远远不如Codex。他特意强调自己不是故意黑Claude,两个模型都用默认配置,没有做任何调优。他只是想把真实体验分享出来,看看有没有人有同样感受。他最后补了一刀说Claude现在就像一个被故意降智的Codex简化版。
社区反应:用户集体吐槽Claude被严重削弱
帖子发出去后评论区直接炸锅,大量用户跳出来说自己也有同样遭遇。一个高赞评论直接开喷说Claude模型现在被削弱了,所有模型都比它强,去试试GLM5.1你会惊讶得合不拢嘴。另一个用户更狠,说现在的Opus 1M犯的错误跟以前Sonnet 4在上下文窗口快满时犯的错误一样低级。这意味着Claude的高端模型能力退步了一大截,连自己的中端模型都不如。
一个用户分享了自己的惨痛经历,他让Opus为一个副业项目创建一个Pull Request,结果Opus直接跳过PR步骤,把代码提交并推送到主分支。他完全崩溃,他说自己只要求做个PR,想先审查一下代码,结果模型自作主张直接往主分支上怼代码。他说这种决策能力简直弱智,而Codex至少会老老实实跟着指令走。另一个用户反驳说这是用户自己的问题,没有加好权限控制。但原帖作者直接怼回去说一个正常的模型听到创建PR,就应该创建PR,而不是理解成直接提交到主分支并推送。这种理解能力倒退到一年前的水平,根本不配叫先进模型。
讨论越来越激烈,有用户直接质问为什么这么多人替Claude辩护,是不是买了Anthropic的股票。原帖作者也加入吐槽说这帮人像在维护自己心爱的球队一样维护一个AI模型,真的很可悲。还有人怀疑Anthropic专门雇了人做社交媒体公关,专门洗地。一个用户说在这种技术领域不能当脑残粉,他从GPT-3.5开始用,用过Cursor,用过Antigravity,现在用Claude Code,但既然Claude不行了,他就准备回到OpenAI的产品线。
工作流革命:高阶用户分享Codex加Copilot双订阅组合拳
评论区里有个大神级别的用户分享了自己打磨出来的高效工作流,直接让整个讨论升级到新高度。他同时订阅了Codex和Copilot,用两个产品的不同计费模式打配合。他先用Codex订阅里的GPT-5.3-Codex或者GPT-5.4做规划阶段,这个过程大概花二十到四十分钟,主要用OpenSpec工具生成项目文档,包括方案文档、设计文档、规格说明和任务清单。OpenSpec这套工具会自动探索代码库,生成非常详细的技术文档,而且不太消耗token。
规划做完后他直接切换赛道,打开新会话,用Copilot订阅里的GPT-5.4模型执行OpenSpec的apply命令。这个命令会自动读取之前生成的所有文档,一次性完成所有代码实现。Copilot的计费方式是按用户请求次数收费,不是按token收费。工具调用和子代理的来回通信都不额外收费。所以哪怕一个请求内部做了二十次来回通信,上下文膨胀到十五万token,也只消耗一个高级请求额度。十美元的Copilot订阅每个月给三百次高级请求,对于每天编码一两个小时的业余项目完全够用。
他详细描述了一次完整的开发流程,一万行代码的项目,一个完整的功能从规划到实现结束只需要四十到九十分钟。而且留下一整套文档作为副产品,以后维护起来特别方便。如果周末全天编码,可能需要把Codex升级到一百美元套餐,Copilot升级到四十美元套餐。这套组合拳把两个产品的计费漏洞用得明明白白,Codex按token计费适合做探索式规划,Copilot按请求计费适合做一次性大批量执行。一个用户问为什么同一个模型要从两个不同订阅用,他解释说因为计费模式完全不同,用Copilot执行大规模任务只需要消耗一次请求,简直血赚。
极端粉丝辩护:用户与护主党激烈互怼三十回合
评论区最精彩的戏码是一个叫Braxbro的用户疯狂为Claude辩护,跟好几个人轮番对线几十回合。他的核心论点是你给AI开放什么权限,它就可能做什么事,你让它能访问主分支,它就会直接推主分支,这是你自己的安全卫生没做好。他用了一个工厂的比喻,说你在工厂里不装护栏,工人又容易偷懒走捷径,工人掉进机器里是你自己的问题,应该装护栏而不是怪工人。
原帖作者直接怼回去说那哥们说的是Codex按指令做事,Claude搞砸了,你在这扯什么安全卫生。Codex能正常工作,Claude不行,我们就讨论这个事实。你搞这么多弯弯绕绕给Claude开脱,是不是Anthropic的员工。另一个用户也加入战局,说你这是煤气灯效应,明明模型垃圾还要怪用户不会用。
Braxbro继续辩解说他只是觉得改变模型周围的结构比抱怨模型本身更有效,因为他改不了模型。原帖作者直接说没人抱怨,大家只是换到Codex,Codex不需要这些额外工作。你喜欢花时间给Claude擦屁股是你的事,别攻击那些不想浪费时间的人。Braxbro最后说就算他换到Codex也会做同样的安全措施,不会把任何模型当魔法。原帖作者懒得再理他,直接说你这逻辑真牛逼。
这场论战把整个帖子的火药味拉到最满,围观群众看得直呼过瘾。一个用户直接给Braxbro的每条回复都点踩,说这人要么是Anthropic雇的水军,要么就是顶级脑残粉。
实际测试反馈:Claude偶尔回光返照但整体拉胯
也有用户站出来说Claude状态好的时候确实很猛。一个做GPU编程的用户分享说上周Claude确实很垃圾,他自己也承认模型被削弱了。但今天早上他用Claude Code一次性搞定了一个很棘手的问题,代码跑起来完美无缺。他的配置方法是限制上下文到二十万token,把CLI回滚到旧版本,关闭自适应思考,分段提交任务,频繁清空上下文。他做的项目非常复杂,涉及GPU运算,不是简单的网页应用。在这个硬核场景下,Codex完全翻车,代码审查还行,但一到实际实现就崩了,改来改去还是跑不通,最后他只能用Claude救场。
但这个正面案例在大量负面反馈面前显得非常单薄。更多用户直接晒出了自己的退订截图,说已经取消Claude订阅换到Codex。一个用户说Claude当前的工作负载完全没法用,Codex虽然token消耗量大,但至少能干活。另一个用户吐槽Codex也有毛病,它太主动了,你让它调研一个问题,它调研完顺手就把代码改了,你本来只想先看看情况再决定,结果它直接把事情办了,有时候挺烦人。
一个用户做了更细致的分工,他个人项目用OpenCode配合Codex、Copilot和剩下的Claude订阅。他的工作流是用Codex订阅的GPT-5.3-Codex或GPT-5.4做规划,然后切换到Copilot订阅的GPT-5.4做一次性执行。偶尔也会试试Sonnet和Opus,但跟Codex比起来基本都算垃圾。唯一例外是Opus做技术写作非常强,写文档比Codex好。他打算等Claude订阅到期就停掉,彻底告别Anthropic全家桶。
技术内幕:用户推测Claude被故意降本导致能力雪崩
多个用户都提到了一个核心观点,Claude现在的拉胯表现不是偶然,而是Anthropic为了控制成本故意降低模型推理质量。一个用户说Claude Plus账号被烧得太快了,公司扛不住token成本,只能降级模型。另一个用户补充说Opus 1M现在犯的错误跟以前Sonnet 4在上下文窗口快满时的错误一样,这说明高端模型的计算资源被砍了一大截,模型在上下文窗口末尾的表现是计算精度的直接体现。
一个自称深度调参的用户分享了自己让Claude恢复部分能力的参数设置。他在配置里加了CLAUDE_CODE_EFFORT_LEVEL设为max,MAX_THINKING_TOKENS设到很大,CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING设为1。他说关闭自适应思考是关键,否则Claude会自己偷懒减少思考量。把这些参数配好后,再配合项目级的.claudeignore文件和合理的工具搜索配置,Claude的表现能接近正常水平。但他也承认这套配置非常麻烦,很多用户根本不知道或者懒得折腾,Codex开箱即用就能达到甚至超过这个效果。
一个用户直接点出了问题的本质,他说大家不是不能接受模型有缺陷,而是不能接受模型在倒退。一年前的模型都能正确理解创建PR的意思,现在的Opus反而理解不了,这不是技术进步,这是技术退步。更讽刺的是Claude Code本身就是一个收费产品,用户花钱买服务,结果服务质量越来越差,社区还要被一群粉丝教育说你们不会用。这种商业模式和技术能力的双重崩盘,让大量付费用户用脚投票,直接转投OpenAI的Codex。
总结:AI编码市场洗牌,用户用钱投票抛弃Claude
整个帖子的核心信息非常清晰,Claude Code因为限额严重和模型能力下降,正在失去大量核心开发者用户。Codex凭借更好的规划能力、执行能力和更宽松的限额,成为当前更优选择。高阶用户甚至开发出了Codex加Copilot的双订阅组合拳,利用不同计费模式实现效率最大化。
社区争论的焦点已经从哪个模型更强,变成了Claude到底被削弱了多少。大量用户提供了实证测试,包括让两个模型做同样的规划任务然后交叉审查,结果Codex全面胜出。也有用户提供了让Claude恢复部分能力的参数配置,但复杂度远高于直接用Codex。
最有趣的观察是用户行为模式的变化,早期Claude靠推理能力建立的口碑正在被持续的产品降级消耗殆尽。当一个用户说我现在用Codex做规划,用Codex做执行,Claude只配做技术写作时,这个市场的格局已经彻底改变。