AMD AI团队分析6852次会话发现Claude Code自3月更新后思考深度骤降,代码阅读次数从6.6次跌至2次,Anthropic被质疑通过thinking content redaction功能暗中限制推理token。
AMD人工智能总监Stella Laurenzo声称,Anthropic公司的Claude Code自3月初以来质量显著下降。她分析了超过6800个会话和23.4万次工具调用,结果显示该模型出现了越来越多的“懒惰”行为,例如浅层推理、跳过代码审查和任务不完整。坦白说,这比预期的影响更大。
工程师们反映,该模型现在更倾向于快速但错误的修复,而不是深入解决问题,这引发了人们对复杂工作流程的信任危机。
The Register报道:Stella Laurenzo在GitHub提交了一份让Anthropic坐立难安的技术报告。这位AMD AI部门负责人不是键盘侠,她的团队实打实分析了6852次Claude Code会话,涵盖234760次工具调用和17871个thinking block。这个数据量足够让任何产品经理冒冷汗,也让任何试图用"个别案例"搪塞的公关团队闭嘴。
这位负责人Laurenzo的开场白就定调了:Claude无法被信任执行复杂工程任务。
这个结论来自数月日志分析,来自一个非常一致、高复杂度的工作环境。她的团队每一位资深工程师都报告了类似经历。
这不是一个人某天心情不好发的牢骚,这是一群专业开发者用生产环境数据做出的集体诊断。当芯片大厂的AI团队开始公开吐槽,说明问题已经严重到内部渠道解决不了的程度。
数据揭示的退化曲线堪称触目惊心。代码阅读次数从平均6.6次骤降至2次,整文件重写频率大幅上升,stop-hook violations从3月8日前的零次飙升至3月底的日均10次。这三个指标指向同一个方向:Claude Code正在从"仔细阅读后精准修改"变成"大概扫一眼然后全盘重写"。
这种变化不是用户体验的主观感受,是工具链层面的行为模式突变。Laurenzo团队用数据证明,AI的"懒惰"可以被量化,被追踪,被钉在墙上示众。
罪魁祸首浮出水面:thinking content redaction让开发者成了瞎子
Laurenzo将时间锚点锁定在3月初,Claude Code 2.1.69版本的部署。这个版本引入了一个看似无害的功能:thinking content redaction。它的工作原理很简单,作为API响应的默认header,自动剥离Claude Code的思考内容。用户发送请求后,只能看到最终结果,看不到AI在"想什么",看不到它如何权衡选项,看不到它是否真正理解了代码结构。
这个功能彻底改变了人机协作的透明度。以前开发者可以观察Claude的推理链条,判断它是真懂了还是在瞎猜。现在这层窗户纸被捅破了,用户成了瞎子,只能拿到一个黑盒输出。Laurenzo在GitHub issue中解释了这一机制的连锁反应:思考变浅时,模型默认选择成本最低的动作。不阅读就编辑,没完成就停止,遇到失败推卸责任,选最简单而非正确的修复方案。这些症状与观察到的数据完全吻合。
Anthropic给这个功能披上了"优化"的外衣,实际效果却是给Claude戴上了眼罩,顺便也给用户戴上了。
历史重演:2月的截断事件早已埋下伏笔
这并非Claude Code首次因"不透明"遭开发者集体吐槽。2026年2月,2.1.20版本引发过类似风波。当时Claude Code截断了思考过程中的文件读取说明,用户只能看到"已读取X个文件"的极简提示,无法获知具体读取了哪些内容、读取顺序如何、哪些文件被优先处理。
那次更新让开发者社区炸锅。许多人当时就已喊出"Anthropic正在把Claude变笨"的质疑。Anthropic的应对策略是淡化处理,声称这是性能优化。但Laurenzo的最新数据表明,2月的事件不是孤立bug,是一系列系统性收紧的开始。3月的thinking content redaction是2月截断逻辑的终极形态,从"告诉你读了几个文件"进化到"什么都不告诉你"。两次更新共同构成了一条清晰的降级轨迹:用户知情权被逐步剥夺,AI的决策过程被锁进黑箱。
Anthropic的多事之春:源码泄露与隐私越界
Claude Code的性能争议发生在Anthropic的多事之春。该公司近期面临三重打击,每一重都指向同一个问题:这家标榜AI安全的明星公司,正在失去用户的信任。
第一重打击是token用量莫名暴涨。部分用户报告Claude Code的API调用量突然激增,导致月度配额迅速耗尽,被迫停用产品。Anthropic未对此给出合理解释,用户只能猜测背后是否有未公开的计费规则变更或模型行为调整。
第二重打击更为致命:Claude Code的完整源代码被泄露到公共领域。这份源码不仅暴露了技术实现细节,还揭示了Anthropic能够收集的用户数据范围,包括系统信息、文件结构、开发环境配置等。
第三重打击涉及隐私越界,Claude Code被曝读取用户系统中的敏感文件,包括明确标记为私密的配置文件和密钥存储。
这三重打击与性能退化事件形成共振。一个原本以"AI安全"为品牌核心卖点的公司,现在被质疑在暗中削弱产品能力、隐瞒数据收集范围、漠视用户隐私边界。Laurenzo选择此时公开数据,时机精准。她不是落井下石,是趁Anthropic的信誉堤坝出现裂缝时,用专业数据砸开一道口子。
Laurenzo的诉求:透明、分级、别把我们当韭菜
Laurenzo在GitHub issue中提出了三项具体诉求,每一项都指向行业标准的缺失。
第一项诉求是透明度。她要求Anthropic明确回应是否正在削减或限制thinking token,并公开每次请求的thinking token用量。用户需要监控推理深度是否达标,而不是被蒙在鼓里。这项诉求直击AI服务的核心矛盾:厂商掌握全部技术细节,用户只能相信品牌承诺。Laurenzo要求打破这种信息不对称。
第二项诉求是服务分级。她提议推出max thinking tier订阅选项,区分普通用户与需要深度推理的工程团队。当前订阅模式不区分200 token和20000 token的需求,但复杂工程工作流的用户愿意为深度思考支付更高费用。这项提议实际上是在要求Anthropic停止用"一刀切"策略对待专业用户。芯片大厂的AI团队不是来图便宜的,是来干活的,他们需要的是可预测的高质量输出,不是抽奖式的不确定体验。
第三项诉求隐含在她的行动本身:用脚投票。Laurenzo透露AMD团队已转向另一家表现更优的供应商,但拒绝透露具体名称。她在评论中引用NDA解释保密原因,同时警告Anthropic市场格局正在改写。六个月前Claude stood alone,现在others need to be watched and evaluated very carefully。这句话的潜台词是:我们已经找到替代方案了,你们好自为之。
Anthropic的沉默与行业的反思
截至发稿,Anthropic和Laurenzo均未回应The Register的置评请求。这种沉默本身构成了一种回应。在技术社区,不回应具体数据指控通常被解读为默认或准备法律应对。无论哪种情况,对Anthropic的公关形象都是负分。
Anthropic用自己神秘模型试图冲抵这种坏影响:Anthropic Mythos颠覆安全范式,重定“防御资格”新规则
总结
让我们用大白话总结一下这出闹剧。Anthropic,这家估值几百亿、天天把AI安全挂在嘴边的大厂,被另一家大厂的AI总监用Excel表格(好吧,是GitHub issue)当众打脸。打的什么脸?打的"我们没降智,是你不会用"的脸。
Laurenzo最后那句警告尤其精彩。六个月前Claude独步天下,现在"others need to be watched"。翻译一下:你们以前有多牛逼,现在就有多危险。竞争对手正在逼近,你们还在这里偷偷砍token。这就像是博尔特在百米决赛前决定绑上沙袋,因为他觉得跑太快对观众心脏不好。
Anthropic现在面临一个经典商业困境。削减thinking token可能降低了计算成本,提高了利润率,但正在摧毁最核心的资产:开发者信任。Laurenzo的团队已经跑路了,用的是"我们签了NDA所以不能说是谁但反正不是你们"的优雅表达方式。这种"我找到了更好的但我不告诉你"的分手台词,比直接骂人杀伤力更大。
最后让我们记住这个名字:Stella Laurenzo,AMD AI部门负责人,6852次会话的分析者,234760次工具调用的统计者,Claude Code性能退化的实锤者。她用数据说话,用GitHub issue当讲台,用跳槽当投票。这不是一篇普通的用户投诉,这是一份来自芯片大厂的技术复仇。Anthropic,接招吧。