Claude默认思考强度被调低:用户重试暴涨80倍总成本不降反升

Anthropic将Claude默认思考强度从high调至medium,单次成本降低但复杂任务失败率上升,用户重试激增,总成本反增。这不是模型变笨,而是算力分配策略从“能力优先”转向“成本约束”。

学霸被要求只写答案不写过程:Claude算力下调背后的成本转嫁游戏!

核心结论:这是一次“被解释为优化”的算力下调,但用户感知与官方叙事出现错位

整件事在官方回应后必须重新定性。Anthropic公开说明,这次将默认effort从high调整到medium,是因为大量用户反馈token消耗太高。他们在更新日志和启动弹窗里都写了这条变动,也给了退出选项。从产品流程来看,这不是偷偷摸摸的行为,而是一次标准的产品参数调整。

但是问题没有消失,反而变得更拧巴。因为用户这边的真实体验依然是:性能往下掉,错误变多,同一个问题要重试好几次。官方在解释“我们为什么这么做”,而用户在感受“结果怎么变差了”。这两件事同时成立,它们不在事实层面冲突,而是在感知层面完全错位。

这就形成一个特别典型的结构。产品逻辑是“减少单次成本,提升整体并发效率”,用户体验却变成“模型能力下降,而且我根本不知道原因”。这不是谁对谁错,而是系统优化目标和用户日常预期之间发生了严重错位。你告诉用户你省钱了,但用户只觉得自己被坑了。

思考强度调整的真实含义:从能力优先转向成本约束下的平衡策略

effort从high变成medium,这绝不是一个UI界面上的选项变化。它本质上是推理计算预算的一次直接收缩。high effort允许模型在生成答案之前,在内部走更长的推理链条,做更多中间验证,尝试多条路径再选出最优解。medium则会更快地收敛,减少探索空间,优先输出一个“看起来够用”的答案。

这种变化在简单任务上几乎没有差别。比如让你写一句问候语,改一个变量名,解释一个基础概念,high和medium出来的结果基本一样。因为这种任务本身就不需要复杂推理。但是在复杂任务上,比如跨多个文件的代码修改、长链条的逻辑分析、需要多步骤决策的问题,推理深度的减少会直接导致错误率飙升。

从工程角度看,这是一次典型的资源调度优化。减少每一次请求的计算消耗,就能在同一堆服务器上撑起更多用户的并发请求。但从用户角度看,这变成了另一件事:模型“看起来没那么认真了”。以前它会反复琢磨,现在它更像在赶时间交差。这两种描述其实是同一个事实的两个侧面,一个从成本出发,一个从体验出发。

数据揭示的变化:思考减少与重试增加形成连锁反应

AMD一位AI负责人干了件很实在的事。他通过大约7000个session的遥测数据,观察到一个关键变化。模型的thinking长度,也就是在回答问题之前的内部推理字符数,从大约2200字符下降到了600字符左右。这意味着模型在开口之前,脑子里面转的圈数大幅减少了。

与此同时,API请求数量在短时间内大幅上升。这种现象更合理的解释不是用户数量突然暴涨,而是单次任务成功率下降,导致用户反复尝试同一个任务。逻辑链条非常清晰。推理链条变短,模型内部验证变少,首次输出的质量下降。用户不满意,就再问一次。重试次数增加,API调用量就上去了。

这就带来一个反直觉的结果。虽然单次调用更省token,但完成同一个任务的总成本可能反而上升。因为一次没搞定,你要试三次四次。这也是为什么一部分用户主观感受到“更费了”,而官方却在强调“单次消耗降低了”。这两者并不矛盾,只是统计的口径完全不同。一个看单次,一个看全程。

已告知与被理解之间的巨大鸿沟

官方强调已经通过更新日志和弹窗做了说明,这在产品流程上确实站得住脚。

官方回应在逻辑上做了三件事
第一,它否认“偷偷削弱(sneaky nerf)”这个指控。它明确说:默认改为medium是基于用户反馈(token用太多),不是暗箱操作。
第二,它强调“有告知”。包括两个渠道:

  • changelog里写了
  • 打开Claude Code时有弹窗提示可以选择退出
第三,它重新定义动机:不是为了省成本或压性能,而是“响应用户反馈,优化体验”。

但问题在于,绝大多数用户不会主动去读更新日志。你弹个窗说“effort从high调整为medium”,用户看到的只是一行字,然后点个确认就继续用了。很少有人会深想这行字到底意味着什么。

更关键的问题在这里。即使用户看到了“effort从high变为medium”,他也很难立即联想到这件事会带来哪些具体后果。他不会想到这会直接影响复杂任务的成功率。他不会想到这会改变模型的推理深度。他更不会想到这会让他反复重试同一个问题,然后多花几倍的时间。

官方说法 ≠ 用户实际体验:你不能简单站队任何一边,因为两边说的都“有一部分是真的”。
从官方角度看,这确实不算“完全偷偷”:有changelog、有提示、有opt-out机制,这在产品流程上是合规的。
但从用户角度看,问题依然成立,而且很扎心:绝大多数人不会看changelog很多人会忽略弹窗更不会理解“effort变化意味着什么”

于是结果就是:形式上透明,实质上不可感知


于是现实变成了这样。信息被提供了,但没有被有效吸收。选择权存在,但没有被真正使用。这就是争议的核心来源。不是信息是否存在,而是信息是否具备“可操作性理解”。你告诉用户一个参数变了,但用户不知道这个参数变了对他的工作意味着什么。那这个告知就等于白说。

workaround的真实价值:不是恢复旧体验,而是重新分配资源

/effort max被很多人当成救命方案。但它本质上只是把决策权交还给用户。它并不能保证恢复到过去的表现。因为模型的整体策略、推理路径、甚至安全机制都有可能已经发生了变化。单纯把effort调高,不等于你把老模型叫回来了。

同时,这个选项带来了新的成本问题。token消耗会显著增加,响应时间变长,而且结果的稳定性未必能完全恢复。你在关键任务上开max,可能确实好一些,但你要付出更高的计算代价和更长等待时间。这就像你以前开一辆正常车,现在给你一辆省油但动力弱的新车,然后告诉你“你可以按个按钮恢复动力”,但按完发现油耗翻倍还不一定跑得动。

因此这个选项更像一个手动挡开关。你可以在关键任务上投入更多算力,但需要自己承担代价。这意味着用户角色发生了变化,从“使用工具”变成了“调度资源”。以前你只管问问题,现在你还要判断这个问题值不值得多花token。

更深层趋势:模型体验开始由算力经济主导

这次事件背后反映的是一个更大的趋势。AI系统正在从“能力最大化阶段”进入“成本约束优化阶段”。随着用户规模越滚越大,维持所有请求都在high effort变得不可持续。服务器就那么多,电费就那么多,你不能让每个人都在上面跑马拉松。

因此平台必须在三者之间做权衡。单用户体验要保,系统整体吞吐量要保,计算成本也要控。默认降到medium,本质上是向“规模优先”倾斜。先让更多人能用上,再谈每个人用得好不好。这不是恶意的,这是数学上的必然。

这也是为什么越来越多讨论开始转向本地模型。虽然本地模型目前能力还远远比不上云端的大模型,但它提供了一个关键能力。你可以完全掌控推理预算,而不是依赖平台策略。你想让模型想多久就想多久,没人会偷偷帮你调低effort。这种掌控感,在云端越来越稀缺。

实际应对策略:建立可观测性,而不是依赖感觉判断

情绪化讨论不会改变任何事情。你在论坛上骂三天,模型该medium还是medium。真正有用的是提升自己的控制力。你需要做的事情非常具体,而且每件都能动手做。

第一,建立固定任务基准。把你最常用的几个任务写成标准提示词,定期跑一遍,把结果存下来。这样任何性能变化都能被量化,而不是靠“我感觉今天模型好蠢”。数据说话,感觉闭嘴。

第二,在关键任务中主动选择高effort。别偷懒,别相信默认配置。你要自己判断这个任务值不值得多花token。跨文件改代码,开max。写一封简单邮件,让medium自己玩去。

第三,区分任务复杂度,合理分配算力。把所有任务都交给同一个配置,等于把控制权扔回给平台。你要自己当调度员,简单任务用低成本方案,复杂任务用高成本方案。这就像你开一辆混动车,市区用电,高速用油,而不是永远开运动模式。

核心思路只有一句话。不要把AI当成稳定不变的工具,而要当成一个会动态调整的计算系统。一旦你具备这种认知,这类变化就不会再是“被动接受”,而会变成“主动调度”。这不是模型变笨,而是思考预算被调低,且大多数人毫无感知能力。