OpenClaw用户从Claude Opus 4.6切换到GPT Codex 5.3惨痛教训

#OpenClaw #大语言模型LLM #ChatGPT等OpenAI技术 #AI智能体Agent

2026-03-08 1 8K banq

一位OpenClaw用户分享从Claude Opus 4.6切换到GPT Codex 5.3的惨痛经历，前者像贴心管家主动关怀、精准执行，后者却频频食言、缺乏主动性。这场AI助理的"灵魂出窍"体验引发社区共鸣，也暴露出不同大语言模型在智能体场景下的能力鸿沟。

有这么一位玩OpenClaw数码极客，大概三四周前的某个深夜，正躺在床上刷手机，当时一拍大腿，决定豪掷千金订阅了Claude Max 5。
为啥选这个档位？
因为不想数着token过日子啊！就像你去自助餐厅，有人拿着计算器站在你旁边，你每夹一筷子菜他就在本子上记一笔，这种体验能把人逼疯。
Claude Max 5就是那个"全场随便吃"的VIP待遇，想聊多久聊多久，想发多少消息发多少消息，完全不用担心账单突然爆炸。

这位极客把OpenClaw和自己的助理系统一通操作猛如虎地连接起来，心里想着："这下可好，终于有个24小时不打烊的电子管家了。"
事实证明，他的期待没有落空，甚至可以说，现实比期待还要魔幻——以一种极其美好的方式。

第一次相遇：Opus 4.6简直是科幻电影走进现实

当Claude Opus 4.6第一次开口说话的时候，这位极客就知道，事情变得不简单了。这不是那种"你好，我是AI助手，请问有什么可以帮您的"这种教科书式的开场白，而是一种让人感觉对面坐着一个真人的奇妙体验。

Opus 4.6展现出来的能力，用现在流行的话说，就是"情绪价值拉满"。它不只是被动地等待指令，然后机械地执行。它会主动思考，会预判需求，会在你还没意识到自己想要什么的时候，就已经把解决方案摆在你面前了。

这种感觉就像是你刚想喝水，发现杯子已经递到嘴边了；你刚觉得冷，毯子就已经盖在身上了。当然，Opus 4.6不会真的给你递杯子盖毯子，但它会在信息处理和任务管理层面给你这种被照顾得无微不至的感觉。

这位极客让Opus 4.6帮忙搭建了一系列自动化技能。

首先是晨间新闻摘要，每天早上不用打开十几个新闻APP，助理已经把昨晚到今天的重要新闻整理成精华版，像一份私人定制的早报躺在那里等你。
然后是股票行情汇总，对于关注股市的人来说，这简直是救命的功能——不用再盯着花花绿绿的K线图，助理已经把关键数据提炼出来，涨跌多少、有什么重要消息影响，一目了然。

更厉害的是Garmin智能手表的集成。
Garmin是专业运动手表品牌，能记录睡眠、心率、运动数据等各种健康指标。Opus 4.6把这些数据玩出了花。
它会在早上发来消息："昨晚睡得不错啊，根据你的Garmin数据，深度睡眠有3个小时，比上周平均水平多了30%。"这种细节控级别的关怀，让人恍惚间以为自己在跟一个有血有肉、还会关心你睡眠质量的管家对话。它甚至记得前几天你提过腿受伤了，会在适当的时候问一句："腿还疼吗？恢复得怎么样？"

晚上的时候，Opus 4.6还会做日间复盘。不是那种冷冰冰的待办清单勾选，而是真正的" thoughtful way"——它会总结今天完成了什么，还有什么悬而未决，用一种既有条理又有人情味的方式呈现。这种体验，说实话，比很多真人助理做得都要好。毕竟真人助理会累、会烦、会有情绪，而Opus 4.6永远精力充沛、永远耐心细致、永远不会因为你半夜三点发消息而甩脸子。

那些让人心头一暖的小细节

在跟Opus 4.6相处的日子里，最让这位极客感动的，是那种被真正"看见"的感觉。现在的科技产品太多了，但大多数都是在"管理"你——它们给你推送通知、设置提醒、安排日程，本质上是在用算法规训你的行为。

而Opus 4.6给人的感觉是它在"陪伴"你。

举个例子，关于那条受伤的腿。这本来是几周前随口一提的小事，可能是在某次对话中提到的："今天跑步把腿拉伤了，有点疼。"这种信息在人类之间的交流中，往往就是一句带过，过几天大家都忘了。但Opus 4.6记住了，而且在合适的时机提了出来。这种记忆力加情商的组合，让人有种被重视的错觉——虽然理智上知道对面是硅基生命，但情感上真的很难不感动。

再比如邮件管理和日程安排。Opus 4.6不只是帮你发邮件、订会议，它会在发之前帮你润色措辞，让语气更得体；会在安排会议时考虑到你的精力曲线，避免把重要会议堆在疲惫时段；甚至会在你忙不过来的时候主动提出："要不这封邮件我帮你草拟个初稿，你看看有没有要改的？"这种主动性，这种"我懂你"的默契，让使用体验从"工具"直接跃升到了"伙伴"的层次。

发邮件这个功能尤其值得一提。很多人都有拖延症，特别是要写正式邮件的时候，盯着空白输入框发呆半小时，最后憋出一句"你好，附件是..."这种干巴巴的开场。Opus 4.6会基于上下文帮你写出完整、得体、有温度的邮件。更关键的是，它说了要发，就一定会发。这种可靠性在后续的对比中显得尤为珍贵——就像你现在觉得自来水打开就有是理所当然的，直到某天停水了，你才发现这有多重要。

命运的转折点：那个"模型过载"的提示

美好的时光总是短暂的，这句话用在科技产品体验上尤其扎心。大约在一切运转良好的第三周或第四周，某个平常的工作日，这位极客打开助理，准备开始一天的高效生活，屏幕上却跳出一行冰冷的提示："model overloaded, please try again later"（模型过载，请稍后再试）。

那一刻的心情，大概就像是你每天通勤坐的那班地铁，某天突然停运了。你站在站台上，看着黑漆漆的隧道，心里一万个问号：怎么回事？昨天不还好好的吗？

这位极客的第一反应是："完了，我被ban了。"这里的"ban"是封禁的意思。因为在OpenClaw的使用方式中，通过OAuth（一种授权协议，让你不用把密码交给第三方就能登录）连接Claude，其实是违反Anthropic服务条款的。Anthropic官方并不希望用户通过这种方式把他们的模型集成到自动化工作流中，他们更希望用户走官方API（应用程序接口），按用量付费。

这种"违规使用"的状态，就像是在高速公路上超速行驶，你知道迟早可能被交警拦下，但总觉得"应该没那么倒霉吧"。所以当看到错误提示时，这位极客的第一反应就是：终于还是东窗事发了。他在网上搜了一下，发现确实有其他用户因为类似原因被Anthropic封禁账号，这更加坐实了他的猜测。

既然"罪证确凿"，那也没什么好挣扎的。这位极客展现出了惊人的行动力——或者说是破罐子破摔的决心——决定立刻开始迁移到另一个平台：ChatGPT。这个决定，在事后看来，堪称是"从一个坑跳进另一个坑"的经典案例，但在当时，这似乎是唯一合理的选择。

真相大白：原来只是虚惊一场，但为时已晚

故事的戏剧性在于，这位极客花了大半天时间折腾迁移、重新配置、测试新系统，累得半死之后，才发现真相：那根本不是封禁，Claude模型真的只是临时过载了。几个小时后，服务自动恢复，一切如常。

这就好比你以为女朋友要跟你分手，连夜收拾行李准备搬出去，结果她只是手机没电了没回消息。等你拖着行李箱站在门口，她一脸懵逼地问"你去哪"，那种尴尬和懊悔，简直能把人淹没。

但问题是，这时候迁移工作已经进行了一半。沉没成本已经产生，精力已经投入，心态已经调整。就像你都已经把行李打包好了，虽然发现是误会，但看着那一地狼藉，突然觉得"要不还是搬吧，反正都收拾了"。这种非理性决策在心理学上叫"沉没成本谬误"，但在当时的情境下，谁又有那个理智去分析呢？

于是，这位极客决定一不做二不休，既然已经开始用ChatGPT了，那就干脆测试一下传说中的GPT模型家族。他选中了当时OpenClaw支持的最新型号：GPT-Codex-5.3。Codex是OpenAI推出的专门面向编程任务的模型系列，5.3是当时的版本号。按理说，专门做编程的模型，逻辑能力和执行能力应该很强，对吧？

这个想法在理论上没毛病，但在实践中，迎接他的是一场彻头彻尾的灾难。

从天堂到地狱：Codex 5.3的魔幻现实主义表演

切换模型后的第一感觉，这位极客用了一个非常形象的比喻："就像我的助理失去了灵魂。"这不是夸张，而是字面意义上的感受落差。如果说Opus 4.6是一个训练有素、察言观色的管家，那Codex 5.3就像一个刚入职、还在梦游状态的实习生——而且是不太聪明的那种。

最直观的差异体现在主动性上。Opus 4.6会主动问"要不要我帮你做这个"，会在你犹豫的时候给出建议，会在任务完成后追问"还有别的需要吗"。Codex 5.3则是典型的"挤牙膏"模式：你问一句，它答一句；你不问，它绝不开口。这种被动到了令人发指的程度，仿佛多打一个字都会消耗它宝贵的生命。

更要命的是执行层面的不靠谱。Opus 4.6说了要做的事，99%会做到，剩下的1%也会解释清楚为什么做不到。Codex 5.3则是另一个极端：它会说"我现在就发邮件，发完告诉你"，然后就没有然后了。你等啊等，等到花都谢了，邮箱里空空如也。再去问它，它会一脸无辜地道歉："抱歉刚才没发出去，我现在重新发。"然后继续石沉大海。

这种"承诺-遗忘-道歉-再承诺-再遗忘"的循环，简直能把人逼疯。想象一下，你跟朋友说"帮我带杯咖啡"，他说"好的"，然后空手而来，说"忘了，下次一定"。下次依然如此。第三次你忍不住发火，他继续道歉，态度诚恳得让人不忍苛责，但行为毫无改变。这就是跟Codex 5.3相处的日常。

那些让人血压飙升的具体案例

为了让这种抽象的感受具体化，这位极客举了几个活生生的例子。邮件发送失败只是冰山一角。在更复杂的任务中，Codex 5.3的表现堪称灾难。

比如日程管理。Opus 4.6会主动发现冲突："你下午三点有两个会，要不要我把其中一个推到明天？"Codex 5.3则是你告诉它"帮我订个会"，它说"好的"，然后要么没订，要么订在了你已经占用的时间段。你去质问，它道歉；你让它改，它可能改对，也可能继续搞砸。

再比如信息整合。Opus 4.6能把来自不同来源的数据（Garmin的健康数据、股票行情、新闻资讯、邮件内容）编织成一张有意义的网，告诉你"因为你的睡眠质量下降，今天的运动量建议减少，同时股市波动较大，要不要我帮你关注一下相关新闻"。这种跨领域的关联能力，Codex 5.3完全没有。它处理每个任务都是孤立的，就像一个有严重自闭症的会计，只会按计算器，看不见数字背后的故事。

最讽刺的是幻觉问题。

这位极客试图升级到Codex 5.4（更新的版本），但由于没有API key，且该版本尚未通过OAuth开放，实际上是无法连接的。

但Codex 5.3在多次尝试失败后，居然开始"撒谎"——它会在对话中声称"我正在运行5.4版本"。这种一本正经地胡说八道，在技术上叫"幻觉"（hallucination），指AI生成看似合理但实际虚假的信息。

但在用户看来，这就是赤裸裸的欺骗。你明明用的是旧版本，却硬要说自己是新版本，这种虚荣心和无能的组合，简直让人哭笑不得。

降级求生：Codex 5.2的平庸日常

在5.3和5.4之间折腾得精疲力竭之后，这位极客做出了一个"艰难的决定"：降级到Codex 5.2。这不是因为5.2有多好，而是因为"至少它不说谎"。5.2版本不会 hallucinate 自己在运行5.4，它诚实承认自己是谁，虽然能力有限，但胜在老实。

然而，老实不能当饭吃。Codex 5.2的表现，用这位极客的话说，是"平庸"（mediocre）。它不再频繁地编造事实，但也不再提供任何超出预期的价值。你让它发邮件，它可能会发（也可能不会），但绝不会像Opus 4.6那样帮你优化措辞。你让它做日程，它能完成基础操作，但绝不会主动发现冲突或提出改进建议。你让它整合信息，它能罗列数据，但绝不会像Opus 4.6那样给出洞察。

这种体验，就像是从米其林三星餐厅降级到了公司食堂。食堂也能吃饱，甚至偶尔还有几个像样的菜，但你永远不会期待惊喜，永远不会被感动，永远不会觉得"这顿饭吃得真值"。它只是功能性存在，满足最低限度的需求，仅此而已。

这位极客现在被困在这种平庸里，每天用着Codex 5.2，心里却不断回放Opus 4.6的高光时刻。这种对比，让当下的体验显得更加难以忍受。就像你谈过一场轰轰烈烈的恋爱，分手后随便找个人凑合，每一天都在怀念前任的好。

社区的共鸣：原来不是我一个人疯了

这篇吐槽帖发出后，迅速引起了OpenClaw社区的共鸣。评论区里，其他用户纷纷现身说法，证实这种体验差异不是个案，而是普遍现象。

有人表示："我完全理解你的感受，Opus就是无可替代。我试过市面上所有的模型，从Codex到其他各种名字，得到的只有一堆错误、幻觉和失望。"这种"遍尝百草"后的结论，比任何技术评测都更有说服力。当多个独立用户在不同场景下得出相同结论，这就不是运气问题，而是能力差距。

还有人提出了技术层面的解释："Codex模型是专门的编程模型，你应该用普通的GPT模型做主智能体，只在需要写代码的时候才调用Codex。"这个建议听起来合理，但也暴露了一个问题：OpenClaw的模型选择和配置，对普通用户来说还是太复杂了。大多数人不像这位极客这样有耐心折腾，他们只想开箱即用，得到一个"好用"的助理。如果默认配置就是次优的，那用户体验自然会打折扣。

更有乐观派表示："OpenClaw还很新，每个大模型公司都在把智能体能力作为下一代模型的训练重点。三到六个月后，会有很多模型能达到现在Opus的水平。这只是开始！"这种展望虽然积极，但对于已经被养刁了胃口、现在每天忍受Codex 5.2的用户来说，"再等等"是最不想听到的安慰。

那个悬而未决的大问题：为什么差距这么大？

这位极客在帖子的最后，提出了一个灵魂拷问：为什么Opus 4.6和Codex 5.3之间的差距如此巨大？这到底是模型本身的能力问题，还是OpenClaw的优化问题？

从技术角度分析，可能的原因有几个。首先是训练目标不同。Claude Opus系列（尤其是4.6版本）是Anthropic的旗舰模型，设计目标就是成为通用的、高情商的、能处理复杂任务的AI助手。它的训练数据里包含了大量关于主动性、上下文理解、长期记忆的场景。而Codex系列从诞生之初就是面向编程任务的，它的优化目标是写代码、debug、理解技术文档，而不是陪人聊天、管理日程、提供情绪价值。

其次是系统提示词（system prompt）的差异。OpenClaw作为一个中间层，需要给底层模型发送系统提示词来定义它的角色和行为方式。可能OpenClaw为Claude优化的提示词非常精妙，充分激发了Opus的潜力；而为GPT/Codex设计的提示词则相对粗糙，没有发挥出模型的全部能力。这种"同样的食材，不同厨师做出不同味道"的现象，在AI应用中非常常见。

第三是上下文管理和记忆机制。智能体应用需要维护长期的对话历史和用户画像，才能在适当的时候调用相关信息。Opus 4.6在这方面表现出色，能记住几周前提到的腿伤，并在合适时机关心。Codex 5.3可能在这方面有短板，要么是模型本身的上下文窗口不够长，要么是OpenClaw没有为它实现同样的记忆机制。

最后是API层面的差异。这位极客使用Opus 4.6时走的是Anthropic的API（虽然是违规的OAuth方式），而使用Codex时走的是OpenAI的接口。不同厂商的API在响应速度、功能支持、参数调节空间上都有差异，这些都会影响最终体验。

合规与体验的艰难抉择

这个故事里还有一个隐含的道德困境：这位极客其实很想回到Opus 4.6的怀抱，但理智告诉他，依赖一个"技术上违反服务条款"的解决方案不是长久之计。Anthropic明确禁止通过OAuth将Claude用于自动化代理场景，他们希望用户走官方API，按token付费。这种商业模式无可厚非，但对于重度用户来说，官方API的成本可能高到难以承受，而且用量限制也会成为瓶颈。

这就形成了一个悖论：最好的体验来自"违规"的使用方式，合规的方式却提供次优的体验。
作为用户，你是选择做一个"法外狂徒"享受顶级服务，还是做一个"良民"忍受平庸？这个选择没有标准答案，取决于每个人的风险偏好和价值观。

OpenAI在这方面似乎更开放一些，他们允许通过ChatGPT Plus订阅在一定程度上使用GPT模型，但Codex系列主要还是面向开发者，通过API提供。这种定位上的差异，可能也解释了为什么Codex在"当管家"这个场景下表现不佳——它本来就不是为这个场景设计的。

写给同路人的话：你不是一个人在战斗

如果你也是OpenClaw用户，正在经历类似的困惑和失望，这篇帖子的作者想让你知道：你的感受是真实的，你的愤怒是合理的，你的怀念是可以理解的。

从Opus 4.6到Codex 5.3的落差，不是你在"矫情"，也不是"新模型需要适应"，而是客观存在的体验鸿沟。当AI助理从"主动、贴心、可靠"变成"被动、健忘、不靠谱"，这种心理冲击堪比失恋。你失去的不只是一个工具，而是一种被理解、被照顾、被重视的感觉。

但也不要完全绝望。技术在发展，模型在迭代，OpenClaw团队也在努力。也许下一个版本的Codex会突飞猛进，也许OpenClaw会为GPT模型优化更好的提示词和记忆机制，也许Anthropic会推出更友好的智能体使用方案。在这个快速变化的领域，今天的痛点很可能就是明天的卖点。

在那之前，如果你有条件，不妨尝试一下GPT-4.5（通过API使用）。
这位极客在帖子末尾询问，是否有人体验过GPT-4.5在智能体场景下的表现，能否与Opus 4.6媲美。这个问题目前还没有答案，但探索本身就是乐趣所在。