Claude默认思考强度被调低：用户重试暴涨80倍总成本不降反升

#OpenCode #AI人工智能指南 #AI智能体Agent #AI端侧

2026-04-13 1 4K banq

Anthropic将Claude默认思考强度从high调至medium，单次成本降低但复杂任务失败率上升，用户重试激增，总成本反增。这不是模型变笨，而是算力分配策略从“能力优先”转向“成本约束”。

学霸被要求只写答案不写过程：Claude算力下调背后的成本转嫁游戏！

核心结论：这是一次“被解释为优化”的算力下调，但用户感知与官方叙事出现错位

整件事在官方回应后必须重新定性。Anthropic公开说明，这次将默认effort从high调整到medium，是因为大量用户反馈token消耗太高。他们在更新日志和启动弹窗里都写了这条变动，也给了退出选项。从产品流程来看，这不是偷偷摸摸的行为，而是一次标准的产品参数调整。

但是问题没有消失，反而变得更拧巴。因为用户这边的真实体验依然是：性能往下掉，错误变多，同一个问题要重试好几次。官方在解释“我们为什么这么做”，而用户在感受“结果怎么变差了”。这两件事同时成立，它们不在事实层面冲突，而是在感知层面完全错位。

这就形成一个特别典型的结构。产品逻辑是“减少单次成本，提升整体并发效率”，用户体验却变成“模型能力下降，而且我根本不知道原因”。这不是谁对谁错，而是系统优化目标和用户日常预期之间发生了严重错位。你告诉用户你省钱了，但用户只觉得自己被坑了。

思考强度调整的真实含义：从能力优先转向成本约束下的平衡策略

effort从high变成medium，这绝不是一个UI界面上的选项变化。它本质上是推理计算预算的一次直接收缩。high effort允许模型在生成答案之前，在内部走更长的推理链条，做更多中间验证，尝试多条路径再选出最优解。medium则会更快地收敛，减少探索空间，优先输出一个“看起来够用”的答案。

这种变化在简单任务上几乎没有差别。比如让你写一句问候语，改一个变量名，解释一个基础概念，high和medium出来的结果基本一样。因为这种任务本身就不需要复杂推理。但是在复杂任务上，比如跨多个文件的代码修改、长链条的逻辑分析、需要多步骤决策的问题，推理深度的减少会直接导致错误率飙升。

从工程角度看，这是一次典型的资源调度优化。减少每一次请求的计算消耗，就能在同一堆服务器上撑起更多用户的并发请求。但从用户角度看，这变成了另一件事：模型“看起来没那么认真了”。以前它会反复琢磨，现在它更像在赶时间交差。这两种描述其实是同一个事实的两个侧面，一个从成本出发，一个从体验出发。

数据揭示的变化：思考减少与重试增加形成连锁反应

AMD一位AI负责人干了件很实在的事。他通过大约7000个session的遥测数据，观察到一个关键变化。模型的thinking长度，也就是在回答问题之前的内部推理字符数，从大约2200字符下降到了600字符左右。这意味着模型在开口之前，脑子里面转的圈数大幅减少了。

与此同时，API请求数量在短时间内大幅上升。这种现象更合理的解释不是用户数量突然暴涨，而是单次任务成功率下降，导致用户反复尝试同一个任务。逻辑链条非常清晰。推理链条变短，模型内部验证变少，首次输出的质量下降。用户不满意，就再问一次。重试次数增加，API调用量就上去了。

这就带来一个反直觉的结果。虽然单次调用更省token，但完成同一个任务的总成本可能反而上升。因为一次没搞定，你要试三次四次。这也是为什么一部分用户主观感受到“更费了”，而官方却在强调“单次消耗降低了”。这两者并不矛盾，只是统计的口径完全不同。一个看单次，一个看全程。

已告知与被理解之间的巨大鸿沟

官方强调已经通过更新日志和弹窗做了说明，这在产品流程上确实站得住脚。

官方回应在逻辑上做了三件事
第一，它否认“偷偷削弱（sneaky nerf）”这个指控。它明确说：默认改为medium是基于用户反馈（token用太多），不是暗箱操作。
第二，它强调“有告知”。包括两个渠道：

changelog里写了
打开Claude Code时有弹窗提示可以选择退出

第三，它重新定义动机：不是为了省成本或压性能，而是“响应用户反馈，优化体验”。

但问题在于，绝大多数用户不会主动去读更新日志。你弹个窗说“effort从high调整为medium”，用户看到的只是一行字，然后点个确认就继续用了。很少有人会深想这行字到底意味着什么。

更关键的问题在这里。即使用户看到了“effort从high变为medium”，他也很难立即联想到这件事会带来哪些具体后果。他不会想到这会直接影响复杂任务的成功率。他不会想到这会改变模型的推理深度。他更不会想到这会让他反复重试同一个问题，然后多花几倍的时间。

官方说法 ≠ 用户实际体验：你不能简单站队任何一边，因为两边说的都“有一部分是真的”。
从官方角度看，这确实不算“完全偷偷”：有changelog、有提示、有opt-out机制，这在产品流程上是合规的。
但从用户角度看，问题依然成立，而且很扎心：绝大多数人不会看changelog很多人会忽略弹窗更不会理解“effort变化意味着什么”

于是结果就是：形式上透明，实质上不可感知

于是现实变成了这样。信息被提供了，但没有被有效吸收。选择权存在，但没有被真正使用。这就是争议的核心来源。不是信息是否存在，而是信息是否具备“可操作性理解”。你告诉用户一个参数变了，但用户不知道这个参数变了对他的工作意味着什么。那这个告知就等于白说。

workaround的真实价值：不是恢复旧体验，而是重新分配资源

/effort max被很多人当成救命方案。但它本质上只是把决策权交还给用户。它并不能保证恢复到过去的表现。因为模型的整体策略、推理路径、甚至安全机制都有可能已经发生了变化。单纯把effort调高，不等于你把老模型叫回来了。

同时，这个选项带来了新的成本问题。token消耗会显著增加，响应时间变长，而且结果的稳定性未必能完全恢复。你在关键任务上开max，可能确实好一些，但你要付出更高的计算代价和更长等待时间。这就像你以前开一辆正常车，现在给你一辆省油但动力弱的新车，然后告诉你“你可以按个按钮恢复动力”，但按完发现油耗翻倍还不一定跑得动。

因此这个选项更像一个手动挡开关。你可以在关键任务上投入更多算力，但需要自己承担代价。这意味着用户角色发生了变化，从“使用工具”变成了“调度资源”。以前你只管问问题，现在你还要判断这个问题值不值得多花token。

更深层趋势：模型体验开始由算力经济主导

这次事件背后反映的是一个更大的趋势。AI系统正在从“能力最大化阶段”进入“成本约束优化阶段”。随着用户规模越滚越大，维持所有请求都在high effort变得不可持续。服务器就那么多，电费就那么多，你不能让每个人都在上面跑马拉松。

因此平台必须在三者之间做权衡。单用户体验要保，系统整体吞吐量要保，计算成本也要控。默认降到medium，本质上是向“规模优先”倾斜。先让更多人能用上，再谈每个人用得好不好。这不是恶意的，这是数学上的必然。

这也是为什么越来越多讨论开始转向本地模型。虽然本地模型目前能力还远远比不上云端的大模型，但它提供了一个关键能力。你可以完全掌控推理预算，而不是依赖平台策略。你想让模型想多久就想多久，没人会偷偷帮你调低effort。这种掌控感，在云端越来越稀缺。

实际应对策略：建立可观测性，而不是依赖感觉判断

情绪化讨论不会改变任何事情。你在论坛上骂三天，模型该medium还是medium。真正有用的是提升自己的控制力。你需要做的事情非常具体，而且每件都能动手做。

第一，建立固定任务基准。把你最常用的几个任务写成标准提示词，定期跑一遍，把结果存下来。这样任何性能变化都能被量化，而不是靠“我感觉今天模型好蠢”。数据说话，感觉闭嘴。

第二，在关键任务中主动选择高effort。别偷懒，别相信默认配置。你要自己判断这个任务值不值得多花token。跨文件改代码，开max。写一封简单邮件，让medium自己玩去。

第三，区分任务复杂度，合理分配算力。把所有任务都交给同一个配置，等于把控制权扔回给平台。你要自己当调度员，简单任务用低成本方案，复杂任务用高成本方案。这就像你开一辆混动车，市区用电，高速用油，而不是永远开运动模式。

核心思路只有一句话。不要把AI当成稳定不变的工具，而要当成一个会动态调整的计算系统。一旦你具备这种认知，这类变化就不会再是“被动接受”，而会变成“主动调度”。这不是模型变笨，而是思考预算被调低，且大多数人毫无感知能力。