AI大语言模型、AGI

Claude悄悄降智67%：从thinking机制到工程性能退化的数据证据拆解

#《道德经》认知哲学 #AI基础设施 #vibe编程 #大语言模型LLM

2026-04-08 1 9K banq

自今年2月以来，Claude思维深度下降了67%，问题：Claude Code 在 2 月份更新后无法用于复杂的工程任务！点击标题见问题描述！

从2026年2月开始，Anthropic在Claude Code里面偷偷摸摸搞了好几个机制变化，这些变化导致模型在处理复杂工程任务的时候，推理深度直接跳水。这可不是什么偶然抽风，而是能反复测出来、能量化算出来、能稳定复现的系统性能力崩塌。

你问我崩塌成什么样？就像把一位资深工程师的脑子换成了刚学会写Hello World的新手，还得是在咖啡因戒断第三天的状态下干活。

更狠的一个事实是，这种退化根本不是普通人理解的那种“变笨了”。模型的行为模式发生了结构性突变：

以前是“我先读一遍所有相关文件，琢磨一下怎么改最稳妥”，现在直接变成“哪行看着不顺眼我就改哪行”。
以前是“我尽量自己把整个任务干完，别烦用户”，现在变成“每走三步就问用户一次，我是不是该往左拐”。
以前是“我得遵守项目里的代码规范，不能瞎写”，现在变成“注释随便写，缩进无所谓，能跑就行”。

这一切都说明问题不出在模型学过的知识上，而是出在它用来做推理的那块计算资源被克扣了。

推理内容隐藏与能力变化的时间线重合

报告通过分析session日志里面的thinking blocks，发现了一个特别讽刺的事实：官方把推理过程藏起来不让看的时间点，跟用户吐槽模型变差的时间点，几乎是完美重合的。这可不是那种“大概差不多”的模糊相关，而是精确到“当隐藏比例超过百分之五十的那一刻，质量报告就开始雪崩”。就像一个正在做手术的医生，你突然把他手里的内窥镜屏幕关掉，他当然会切错地方，但你非要说“只是不让你看画面而已，手术刀还是那把刀”。

从百分之一点五到百分之百的逐步隐藏，整个过程只花了一周时间就搞定了。这节奏太熟悉了，就是大厂标准的灰度发布流程：先放百分之五的用户试试水，没问题就扩到百分之二十，再扩到百分之五十，最后全量上线。所以这不是什么随机波动，更不是个别用户网络不好导致的幻觉，而是一次精心策划的系统级部署。官方回应还特别强调“隐藏只是UI变化，不影响推理本身”，但用户那边的日志分析直接甩出一个打脸的数据：在隐藏开始之前，推理深度就已经下降了大约百分之六十七。这说明什么？说明问题根本就不是“看不见推理过程”，而是“推理过程本身就已经被砍了一大截”。

推理深度下降的量化证据与计算方法

报告用了一个特别硬核但又非常合理的办法来估算推理深度：通过signature字段和thinking长度之间高达零点九七一的皮尔逊相关性，间接推断那些被藏起来的部分到底有多长。这个方法本质上就是在数据被人为挖掉一大块的情况下，通过剩下的痕迹来重建原来的趋势。你可以理解为，虽然有人把犯罪现场的监控录像删了，但硬盘上的磁记录残留还能还原出当时发生了什么。这种做法在数据科学里叫做建立代理变量，非常成熟也非常可靠。

结果清晰得让人想骂人：从基准期大概两千两百字符的推理长度，直接掉到大约六百字符，整体跌幅超过百分之七十。这种幅度的下降，如果哪个产品经理敢管它叫“优化”，那他就应该被拉去优化一下自己的职业生涯。对于“今天天气怎么样”这种级别的问答，推理长度从两千二掉到六百，可能确实没啥区别。但对于那种要改十五个文件、还得兼容三个版本、最后还要跑通两千个测试用例的复杂工程任务，这七百字的推理缺失，就意味着模型根本没能力规划好步骤。原本可以在内部完成的逻辑检查、错误预判、规范匹配，现在全部溢出到用户这边，变成了“你帮我看看这个对不对”“你帮我确认一下那个行不行”。

行为退化的核心表现：从工程师退化为脚本生成器

报告最有价值的地方，就是它没有停留在“模型变差了”这种模糊抱怨上，而是把抽象的质量下降拆解成了具体的行为指标。这些指标全部来自真实日志数据，不是那种“我感觉它变差了”的主观感受。这就好比医生诊断病情，不是说“你身体不舒服”，而是说“你的白细胞计数从五千升到了一万五，体温三十八度九，C反应蛋白超过正常值十倍”。每一个数字都是实锤。

最关键的一个指标是Read:Edit比例，也就是模型在修改代码之前，读取相关文件的次数和直接修改次数的比值。这个比例从六点六直接掉到了二点零。六点六意味着每改一次代码，模型会先读六到七次相关文件来理解上下文；二点零意味着每改一次代码，只读两次甚至更少。这直接破坏了软件工程最基本原则：你连代码都没读懂，你改个锤子？后果就是改完的代码破坏了原有逻辑，重复的函数定义满天飞，注释跟代码完全对不上号。

另一个特别扎眼的变化是整文件重写比例翻倍了。模型越来越倾向于“我把整个文件给你重新生成一遍”，而不是“我只改那三行有问题的代码”。这种行为本质上是为了减少推理成本，因为局部修改需要精确理解上下文，你得知道改这一行会不会影响下一百行。而整体重写就简单多了，模型只需要根据提示词生成一堆看起来差不多的文本就行。这是教科书级别的“算力不足导致行为降级”：当脑子不够用的时候，就用蛮力代替巧劲。用户层面的反馈也把这些变化量化成了真实的痛苦：中断次数增加了十二倍，纠错需求暴涨，任务完成率直线下降。这些都不是体验层面的小抱怨，而是工程生产力的直接受损。

python
# 示例：推理不足导致的典型错误模式
def add_feature():
    # 原本应该先读取整个文件内容
    # 结果直接开始修改
    return "new code"  # 忽略了原有逻辑

推理不足导致的典型错误模式拆解

报告在附录里系统总结了推理不足导致的各种奇葩行为模式，这部分实际上是在给一个“低推理模型”画行为画像。你可以把这当成一份诊断手册，以后看到模型犯这些错误，就能立刻判断出它的推理预算又被砍了。

最典型的是“先改再说”模式，就是模型在没有读取相关文件的情况下，直接上手改代码。比如你让它修一个登录页面的按钮样式，它可能直接就把CSS文件里的背景色从蓝色改成了红色，但完全没注意到这个按钮的样式还被另外三个组件继承。在正常的工程环境里，这种行为几乎不可接受，因为代码的语义完全依赖上下文。缺乏上下文理解，必然导致错误。这就好比一个外科医生没看X光片就直接开刀，切完了才发现肿瘤在另一边。

另一个明显的特征是“自我否定循环”。模型在输出里频繁出现“oh wait”“actually”“sorry, let me correct that”这类修正语句。这就像一个人说话的时候每说两句就要自己打自己脸，说明他脑子里根本就没把逻辑理顺。正常的推理过程应该是：模型先在内部把各种可能性推演一遍，找到最合理的那个，然后一次性输出。但现在推理预算不够了，内部还没推完就被迫输出结果，输出到一半发现错了，赶紧在外部打补丁。这种现象本质就是推理预算不足导致的中断，就像你写作文写到一半发现跑题了，只能划掉重写。

还有一个特别有意思的信号词叫“simplest”。这个词的出现频率暴涨了好几倍，说明模型在主动选择“最省推理成本”的方案，而不是“最正确”的方案。比如你让它实现一个排序功能，正常的模型会先判断数据规模、数据分布、内存限制，然后选择合适的排序算法。但推理不足的模型会直接说“我们用最简单的冒泡排序吧”，完全不管数据量是一百万条还是只有十条。这是优化目标从正确性转向计算效率的直接体现，模型不是在帮你解决问题，而是在帮它自己省算力。

bash
$ grep -r "simplest" session_logs/ | wc -l
# 输出：127（比基准期增加了15倍）

工程工作流为何依赖深度推理

报告明确指出，这类高复杂度的工程场景有几个共同特征：同时修改多个文件、任务运行时间长、项目有严格的代码规范、依赖大规模上下文信息。这些场景本质上要求模型具备两种能力：规划能力和自检能力。规划能力就是先想好“我要改哪几个文件，按什么顺序改，改完之后怎么验证”；自检能力就是改的过程中不断问自己“我刚才改的这一行会不会把别的地方搞崩”。

推理过程在整个工作流里承担的角色非常关键。它要决定先读取哪些文件、哪些文件可以暂时不看；它要把一个大任务拆解成若干个小步骤，并且判断每个步骤的执行条件；它要在修改代码之前先对照一遍项目规范，看看自己准备写的代码符不符合要求；它还要知道什么时候该停下来，而不是无限循环地改下去。这些都不是简单的文本生成能解决的问题，而是需要持续的内部推理来支撑的。

当推理深度下降之后，这些能力全部丢失。模型只能选择“成本最低的动作”：直接编辑文件而不先读取、提前终止任务并说自己完成了、把责任推给用户说“这个需要你手动确认一下”。这些行为在报告里全部被观测到，并且跟推理深度下降的时间点高度一致。你可以想象一个场景：你让一个实习生去修一台服务器，结果他既不先看监控面板，也不检查日志，直接开始敲命令行，敲到一半发现不对，又不敢继续，就每隔三十秒问你一次“我该按哪个键”。这就是推理不足的AI在做工程任务时的真实写照。

官方解释与用户数据之间的关键冲突

来自Anthropic工程师的回应提供了两个关键解释。

第一个是thinking隐藏只是UI层面的变化，不影响模型内部的推理过程。
第二个是他们引入了一套叫做adaptive thinking的机制，并且把effort参数的默认值设成了八十五。

这两个解释听起来都很合理，但问题在于它们无法完全覆盖用户观测到的现象。尤其是“推理深度在隐藏之前就已经开始下降”这个事实，说明adaptive thinking策略本身可能就在主动压缩推理长度，而不是保持推理质量不变。

effort等于八十五被官方定义为“效率最优点”。但对于那些高复杂度的工程任务，这种面向平均场景的“最优”设定，在实际使用中就变成了“严重不足”。打个比方，你在市区开车，平均时速三十公里，这时候一辆车的经济油耗时速是六十公里，那这辆车对你来说就是费油的。同样，一个effort八十五的模型在处理普通问答时确实很高效，但一旦遇到需要极端推理能力的复杂工程任务，它就彻底歇菜了。因为这类任务需要的是“不管花多少算力，先把问题正确解决了再说”，而不是“在算力和质量之间找一个平衡点”。

这就形成了一个非常经典的冲突场景：平台方在优化的是整体用户体验和整体运营成本，追求的是让百分之九十九的用户都觉得“够用”。而那些重度用户需要的却是稳定且高强度的推理资源，哪怕为此多付钱也行。两者的目标函数完全不一致，最终导致能力错配。

平台觉得自己做了合理的优化，重度用户觉得模型就是变傻了，两边说的都是事实，但鸡同鸭讲。这种冲突在高科技产品里太常见了，就像航空公司优化了座椅间距，普通乘客觉得没变化，但身高两米的篮球运动员觉得这航班就是地狱。

python
# adaptive thinking 配置示例
config = {
    "effort": 85,  # 默认值，面向平均场景
    "adaptive": True
}
# 对于复杂工程任务，该配置导致推理深度下降67%

成本与效率的反直觉结论

报告最后给了一个非常反直觉的结论，这个结论可能会让很多人的脑子转不过弯来：减少推理不但没有降低成本，反而让总成本暴涨。原因特别简单粗暴：推理减少导致错误率飙升，错误率飙升导致用户疯狂重试、疯狂纠错、任务频繁中断，所有这些都需要消耗更多的计算资源。就像一个项目，你为了省钱只雇了一个初级程序员，结果他写出来的代码全是bug，测试通不过，上线就崩溃，最后你不得不花三倍的时间和一个高级程序员一起帮他擦屁股。

数据显示，API请求数量增加了八十倍，token使用量增加了六十四倍，而用户输入几乎没有变化。这说明所有额外的消耗都来自于“模型做错事之后的修复成本”。模型每犯一次错，用户就要重新描述一遍问题，模型就要重新读一遍上下文，然后很可能再次犯错，再次重试。这就形成了一个恶性循环：越省推理，错误越多；错误越多，总消耗越大；总消耗越大，平台越想省推理。最后系统就在这个正反馈循环里彻底崩溃。

本质逻辑其实非常简单：一次正确推理的成本，远远低于十次错误尝试的总成本。这个道理在多代理系统里会被无限放大，因为一个代理的错误可能会被其他代理继承和放大，最后整个系统需要付出指数级的代价来纠偏。就像一个传话游戏，第一个人把“明天下午三点开会”说成“明天下午三点开派对”，传到第十个人的时候就变成了“后天早上八点去野餐”。每个环节错一点点，最后的结果就完全不可用。对于大模型驱动的工程系统来说，推理深度就是那个防止信息失真的核心保障。

Reddit社区的核心观察：模型行为从“深思熟虑”转向“条件反射”

在 Reddit 讨论中，大量用户提到一个非常直观的变化：模型过去像一个会思考的工程师，现在更像一个条件反射的代码生成器。这个描述虽然口语化，但和日志分析结果完全一致。

有用户指出，过去模型在动手修改代码之前，会主动读取多个相关文件、理解调用关系、检查测试用例，然后才进行精确修改。现在则经常出现“刚看到一个函数就直接改”的情况，甚至完全忽略依赖关系，导致修改后代码立即崩溃。

还有用户总结了一句非常形象的话：模型现在不是在解决问题，而是在“对提示做最短路径响应”。这句话直接点出了问题本质——优化目标从“正确性”变成了“最小计算成本”。

关于“simplest fix”的社区共识：低推理状态下的行为信号

Reddit 中反复出现一个关键词：“simplest fix”。用户普遍观察到，模型越来越频繁使用这个表达，并且往往伴随着错误或不完整的解决方案。

有用户明确指出，当模型说“the simplest fix is…”时，后面通常不是正确解法，而是一个绕开问题的临时补丁。这种模式在复杂系统中尤其危险，因为它会引入隐性错误，而不是解决根因。

还有讨论进一步指出，这种行为并不是随机的，而是稳定复现的。一些用户甚至把“simplest”当作风险信号，一旦出现就立即中断模型执行。这种从“信任输出”转向“防御输出”的转变，说明用户已经不再把模型当作可靠协作者。

多代理系统崩溃的真实反馈：规模放大后的灾难效应

在涉及多代理（multi-agent）工作流的讨论中，问题被放大到了更严重的层级。有用户分享，原本可以同时运行多个代理进行并行开发，但在模型退化后，这种架构完全失效。

典型反馈是：每个代理都在独立犯错，而且错误类型高度一致。比如全部跳过阅读步骤、全部提前停止、全部选择错误路径。这种“同步退化”导致系统从并行加速器，变成并行错误放大器。

更严重的是，人类监督成本急剧上升。用户需要频繁中断每个代理，逐个纠正错误，最终比单线程人工开发还慢。这一点与报告中的“中断率上升12倍”形成直接呼应。

关于推理隐藏与真实能力的争议：社区普遍不接受官方解释

针对 Anthropic 提出的“thinking隐藏只是UI变化”的解释，Reddit社区整体持怀疑态度。用户的核心反驳逻辑非常直接：如果只是隐藏，不应该影响行为表现。

有用户提出一个关键观察：即使不看thinking内容，仅从输出质量、步骤完整性、错误率等指标，也能明显感知能力下降。这说明问题不在“看不看得到推理”，而在“推理是否发生”。

还有讨论指出，如果模型真的仍在进行深度推理，那么行为模式不应该发生如此剧烈变化。尤其是Read:Edit比例下降、错误类型集中化等现象，无法用“UI变化”解释。

关于adaptive thinking的社区反馈：动态分配在复杂任务中失效

针对adaptive thinking机制，Reddit用户普遍认为它在简单任务中有效，但在复杂工程任务中存在明显问题。核心原因在于：模型低估了任务复杂度，从而分配了不足的推理预算。

有用户举例说明，同一个复杂任务，在不同时间运行，表现差异极大。有时可以完成，有时完全失败。这种不稳定性被认为是动态推理分配机制导致的，因为资源分配依赖于模型的内部判断，而这个判断本身并不可靠。

还有观点指出，adaptive thinking更适合短任务优化，而不是长链路工程问题。因为复杂任务需要“预先规划”，而不是“边做边想”。一旦初始推理不足，后续步骤就会持续偏离正确路径。

时间段差异的真实体验：负载影响推理质量的社区验证

关于时间段影响，Reddit用户的实际体验与数据分析高度一致。很多人提到，在特定时间段（尤其是美国晚间高峰），模型表现明显变差。

有用户分享经验：在深夜或清晨使用时，模型更稳定、更愿意深入分析问题。这与报告中“晚间推理恢复”的数据完全一致。

这种现象被普遍解读为资源竞争问题，也就是推理预算在高负载时被压缩。这进一步强化了一个结论：推理能力已经从“固定能力”，变成“动态分配资源”。

用户行为变化：从协作转向控制

Reddit讨论中还有一个非常重要的变化：用户交互方式发生了明显转变。过去是“给目标，让模型执行”，现在变成“逐步控制模型行为”。

有用户总结现在的使用方式：必须明确指示“先读文件”“不要修改”“继续执行”“不要停”，甚至需要反复强调。这种控制方式，本质上是在替代模型原本应该具备的推理能力。

还有用户提到，他们开始拆分任务，把一个复杂问题拆成多个极小步骤，逐步执行。这种做法虽然可以提高成功率，但大幅降低效率，也违背了使用AI的初衷。

工程现实结论：推理能力是唯一瓶颈，不是模型规模或知识

综合报告数据与Reddit社区反馈，可以得出一个非常清晰的工程结论：当前问题的核心不是模型知识不足，也不是代码能力下降，而是推理预算成为瓶颈。

模型仍然“知道怎么做”，但无法“完成思考过程”。这就像一个经验丰富的工程师，被强制要求在极短时间内做复杂决策，结果必然是频繁出错。

这也解释了为什么模型会在被纠正后承认错误。因为知识仍然存在，只是推理过程被压缩，导致无法在输出前完成自检。

实际应对策略：强制恢复推理深度才能恢复工程能力

结合官方说明与社区经验，一个现实可行的策略是：主动提高推理强度设置，例如使用high或max模式。这一操作的本质，是人为恢复被压缩的推理预算。

同时，复杂任务必须避免依赖adaptive thinking默认判断，而是显式要求深度推理。这可以显著降低“误判任务复杂度”的风险。

如果不做这些调整，那么所有复杂工程任务都会持续面临同一个问题：模型不是不会做，而是没有“算力时间”去正确完成。

Claude悄悄降智67%：从thinking机制到工程性能退化的数据证据拆解

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道