Claude Mythos潜在思维为什么在智能体中比OpenAI CoT思维链更强？

#AI智能体Agent #大语言模型LLM #ChatGPT等OpenAI技术 #持续学习CL

2026-05-03 7K banq

CoT与潜在思维彻底讲清：循环Transformer为何更强以及任务选择指南！

期刊/发表日期/原文标题/作者背景：
arXiv / 2026-01-30 / A Formal Comparison Between Chain of Thought and Latent Thought / 东京大学计算机科学研究团队

Claude Mythos 是一个循环的 Transformer？为什么循环能提升性能？在 ICML 2026 上的论文对此进行了正式解答。

本文用通俗比喻讲清思维链CoT与潜在思维（循环Transformer）差异，解释循环Transformer为何更强，并给出实际任务选型策略。

推理方式的差异直接决定了AI在具体任务上的表现好坏

很多人看AI论文，总喜欢问“哪个更强”，这个问题就像问“菜刀和炒锅哪个更厉害”，听起来就有点不对劲。关键不在谁强，而在你做什么菜。论文核心其实很接地气：不同推理方式，本质就是不同计算结构，结构一变，效率和能力就跟着变。就像你骑自行车和开汽车，都能从A到B，但拉一吨货的时候，自行车链条蹬断也白搭。

简单讲一句人话：思维链是“写一步，走一步”，潜在思维是“在脑子里算好了，直接出结果”。一个像排队买奶茶，前面那人纠结五分钟，后面全得等着。另一个像五个窗口同时做奶茶，你点完单，几个步骤一起搞，哗啦啦就给你了。所以理解推理方式，不是看名字多高级，而是看它“怎么干活”。只要你搞清楚这个“干活流程”，你基本就能预测它在哪些任务里会赢，哪些任务里会输得像乌龟赛跑。

思维链把推理变成一条单行道，每步都要喊出来

思维链的核心特点，说白了就是“每一步都要写出来”。模型生成一个词，再根据这个词生成下一个，再下一个，就像考试写证明题，老师要求你把“因为所以”全部写清楚。你心里其实知道答案，但还是得写“由此可得”“进一步推出”，一个字不能少。这种方式的优点很明显：过程透明，哪里错了可以回头看。就像你妈让你打扫房间，你列了个清单：先扫地，再拖地，再擦桌子。她一看就知道你有没有偷懒。

但问题也藏在这里：它必须一条路走到黑，不能跳步。前一步没走完，后一步动不了。像坐那种老式绿皮火车，每站都得停，前面车厢的人堵在过道，后面的人就只能干瞪眼。论文里管这叫“顺序依赖”，翻译成人话就是“排队排到崩溃”。当你处理一个长任务，比如算“（3+5）*（2+8）/4”，思维链会先算3+5得8，再算2+8得10，再算8*10得80，再算80/4得20。四步，一步接一步，像老奶奶上楼梯。

这让它在一个地方特别吃亏：当任务有大量可以同时算的小步骤时，它依然老老实实排队。就像你手里有十道口算题，正常人会一起看，先做三加五，八减二，但思维链偏要一道一道做。所以它的计算复杂度是O（步骤数），步骤越多，它越慢。像一个手工作坊，产量取决于师傅的手速。

潜在思维把推理变成多层大楼，每层所有活同时干

潜在思维走的是另一条路，它不把中间步骤写出来，而是在内部直接算。这个变化听起来不大，实际上像从爬楼梯换成了坐电梯。它的关键能力在于“并行”：可以把同一层内的所有计算一起做，然后一起进入下一层。就像建房子，你不是一块砖一块砖地砌，而是一层楼的墙、柱子、楼板同时施工，几十个工人一起上。

举个具体的例子，还是算“（3+5）*（2+8）/4”。潜在思维怎么干？它第一层同时算3+5和2+8，两个加法一起做，得8和10。第二层直接算8*10得80。第三层算80/4得20。你看，原来四步压缩成三步，而且第一步里两个加法是并行完成的。步骤越多，这个优势越明显。论文里给了一个比喻：潜在思维就像在脑子里画计算图，所有能一起算的节点，它都堆在一起算。

这个结构带来的好处非常直接：速度快，而且规模越大，优势越明显。就像你同时开十个下载线程，总比一个一个点完再点下一个要快得多。论文强调，这种方式本质是“在潜在空间计算”，翻译成人话就是在脑子里直接算，不用把过程写出来给别人看。就像你做心算，嘴巴没动，手里没写，答案已经出来了。但缺点也是有的：外人看不到你是怎么算的，像变魔术，只给你看结果。

并行能力让复杂问题的复杂度从步骤数降为层数

当你接受“潜在思维可以并行”这个前提后，一个非常关键的结论会自动跳出来：任务的复杂度不再取决于总步骤数，而取决于结构深度。什么叫结构深度？就是你必须先算完A才能算B的那种依赖链条的长度。还是在“（3+5）*（2+8）/4”里，依赖链条是：两个加法做完才能做乘法，乘法做完才能做除法。深度是3（加法层、乘法层、除法层）。但总步骤数是4。当任务更复杂时，这个差距会像拉面一样被越拉越长。

给你一个夸张一点的例子。假设有个任务，有一千个操作点，但只分十层结构。比如一层里做一百个加法，二层里做五十个乘法，三层里做二十个比较，等等。思维链要老老实实走一千步，像蜗牛爬长城。而潜在思维只要十轮，每轮里一百个加法同时算完。这就像搬砖：一个人搬一千块，和一百个人每人搬十块，谁先干完？不用算，你用脚趾头想都知道。

论文里专门做了复杂度分析。思维链的时间复杂度是O(T)，T是总操作数。潜在思维如果用足够宽的并行，可以降到O(D)，D是结构深度。而D通常远小于T。就像你写一篇作文，总字数一千字，但结构深度只是“开头-中间-结尾”三层。你不会一个字一个字地憋，而是先想大纲，再填内容。潜在思维干的就是这个事。所以在很多结构化任务里，比如表达式求值、图遍历、逻辑推理链条，潜在思维表现会非常猛，看起来像“突然开挂”。其实它没有变聪明，只是换了一种更高效的干活方式，从“单线程”变成了“多线程”。

循环Transformer用同一套参数反复计算，把深度变成时间

问题来了，潜在思维这么依赖“层数”，那怎么增加层数？传统方法很简单：堆更多层。比如把Transformer从12层加深到48层。但这样参数会暴涨，像公司从12个人扩招到48个人，工资开销直接翻四倍。而且每一层都要单独训练，成本起飞。论文里给了一个很聪明的办法：循环Transformer。它的核心思想是“用同一套结构反复计算”。就像写作业，你写完一遍，检查一遍发现错了，再改一遍，再改一遍，直到满意。你这个人没变，脑子没换，但思考次数增加了。

具体怎么干？看这段伪代码，我写给你看：


输入 x
for 循环次数 in 1 到 L:
    x = Transformer模块(x)   # 每轮都用同一个模块
输出 x

你发现没有？每一轮用的都是同一个Transformer模块，参数一模一样。但每循环一次，就相当于多了一层思考深度。这叫“参数复用”，像你用一个计算器算十道题，计算器没变，但你按了十次。或者更像一个老员工加班，他一个人干好几个人的活，虽然累一点，但公司不用招新人。

论文里对比了两种方式。传统深模型Transformer，层数是L，参数量是L * P（P是每层参数）。循环Transformer，层数是L，参数量是P，因为你只复用那一套。参数量直接除以L。这带来的好处非常现实：在相同参数量下，你可以拥有任意深的推理深度，只要肯花时间循环。当然代价是时间变长了，因为你要循环L次。但很多时候，我们宁愿多等一会儿，也不愿买一张几十万的GPU。就像一个学生，宁可熬夜复习，也不愿花十万块请一百个家教。

参数复用让循环Transformer在性价比上碾压传统深模型

循环结构还有一个特别现实的好处：省钱。你想想，传统深模型每一层都要新参数，像公司每个岗位都要招新人，前台、销售、财务、技术，全是不同的人。而循环模型只用一套参数，反复用，像一个保安大叔，白天看大门，晚上巡逻，第二天早上还帮忙搬东西。虽然事情多，但工资没涨。

论文里给了一个很直观的数据。假设一个任务需要50层深度才能算对。传统Transformer需要50层，参数量巨大，训练成本高到只有大公司玩得起。循环Transformer呢？它可能只用了5层的参数（比如一个很小的模块），然后循环10次，达到50层的效果。参数量只有前者的十分之一。这就好比你要搬50块砖。方案A：雇50个人，每人搬一块，一次搬完。方案B：雇5个人，每人搬一块，然后跑回去再搬，来回10趟。方案A快，但贵。方案B慢，但便宜。关键是，很多任务不急那一两秒，但差那几百万的训练费。

所以循环Transformer的核心优势不在“更快”，而在“更便宜地达到同样的深度”。论文里把它叫做“深度-参数解耦”，大白话就是你不需要为了增加深度而疯狂堆参数。你可以先做一个不大的模型，然后通过循环来增加思考次数。这就像你学数学，不需要先去读个博士才能做难题，你可以用中学知识反复琢磨同一道题，想十遍，总能想出来。对大模型公司来说，这种性价比非常关键。这也是为什么Claude、GPT这类系统在推理时会用类似“多次调用”的思路，因为它们更看重“推理效率”，而不是单纯堆规模。

思维链的随机探索能力在特定任务中不可替代

看到这里，你可能会觉得：潜在思维加循环Transformer这么牛，思维链是不是该扔进垃圾桶了？答案是绝对不能。因为思维链有一个非常独特的能力：随机尝试不同路径。它是逐步生成的，每一步都可以有不同选择，就像你走到岔路口，可以随机选左边或者右边。而潜在思维是确定性的，同一个输入，它永远算出同一个结果，像计算器按1+1永远不会等于3。

这个能力在什么任务里特别重要？比如近似计数、概率采样、组合爆炸问题。给你举个具体的例子：问“从1到100里随机抽两个数，和大于150的概率大概多少？”如果用潜在思维，它得把每种组合都算一遍，或者用公式推导，但公式可能很复杂。而思维链可以这么干：随机抽一百次，每次抽两个数，看看和大于150的有几次，然后估算概率。这叫蒙特卡洛方法，靠随机试，不靠算。

另一个经典例子是“旅行商问题”的近似解。给你十个城市，找一条最短路线。潜在思维得尝试所有10!种排列，那是一个天文数字，算到宇宙爆炸也算不完。而思维链可以随机尝试几千条路径，挑一条最好的，虽然不是全局最优，但够用了。论文里专门强调，思维链的随机性来自它的“自回归生成”特性，每一步都可以采样下一个词，像掷骰子。潜在思维没有这个机制，它更像一个确定性的函数，输入进去，输出出来，中间没有随机性。

所以思维链的价值在于“探索”，而不是“计算”。就像一个侦探，面对复杂的案件，他不会试图穷举所有可能性，而是不断提出假设，尝试推理，错了再换一个。而潜在思维像一个法医，只做精确的化验，给出确定的数据。两种能力，缺一不可。

两种推理方式形成互补关系，而不是竞争关系

把前面所有的结论拼在一起，你会得到一个非常清晰的图景。潜在思维加循环Transformer，负责高效、确定、并行的计算，像一个强力发动机。思维链，负责随机、探索、逐步的试错，像一个灵活的方向盘。单独看都不完整，组合起来才有意义。

论文里用一个很形象的比喻：潜在思维像下围棋时的“计算”，你脑子里同时推演很多个局部战斗，并行处理。而思维链像下棋时的“复盘”，你一步一想想清楚，看看哪里可能漏算。一个职业棋手，两种能力都要有。只会计算不会探索，你会被对手的奇招打蒙。只会探索不会计算，你每一步都在瞎蒙。

还有一个更生活化的例子：做饭。你煲汤，可以同时切菜、烧水、调味，这是并行。但你做一道复杂的红烧肉，需要一步步来：焯水、炒糖色、加调料、慢炖，每一步不能跳，这是顺序。一个厨房里，两种方式都有。不是说谁取代谁，而是看你在做什么菜。

所以论文最后强调的核心观点是：这两种推理方式不是竞争关系，而是互补关系。未来的AI系统，不应该只选一种，而应该根据任务动态切换。就像一个工具箱里，既有扳手也有螺丝刀，你不能说扳手更强就把螺丝刀扔了。

任务选型策略：能并行就并行，需探索就顺序

说到这里，最重要的问题其实已经很清楚了：在真实任务里，到底什么时候用哪个？我给你一个简单的决策树，用大白话讲。

第一类任务：结构清晰，可以并行。比如数学表达式求值、电路模拟、图上的最短路径（用动态规划）、矩阵乘法、逻辑推理链条（比如三段论）。这些任务的特点是，很多小步骤之间没有依赖关系，所以潜在思维能发挥并行优势。就像搬砖，砖和砖之间没关系，一百个人一起搬最快。论文里的实验数据也显示，在表达式求值任务上，潜在思维比思维链快3到10倍，而且表达式越长，优势越大。

第二类任务：需要探索，比如生成创意内容、概率估计、组合优化、游戏中的走法评估。这些任务的特点是，没有固定公式，试错比死算更有效。比如你写一首诗，你不知道哪个词最好，就得尝试“月光”“月色”“月华”，看看哪个顺眼。思维链可以帮你试，因为它在每步生成时都可以采样不同词。潜在思维不行，它只会给你一个确定的结果，像机器翻译，翻出来是啥就是啥。

第三类任务：混合型。比如解一道数学应用题。你先要理解题意（可能需要探索），然后列方程（可能需要并行计算），最后求解（并行）。这时候，最好的办法是先用思维链探索思路，再切换到潜在思维高效计算。论文里管这叫“组合策略”，就像你先用导航选路线，再一脚油门踩到底。

一句话总结选型策略：能一起干的活就别排队，需要多试的活就别死算。选对方法，效率直接翻倍。选错方法，再强的模型也会卡壳，像用螺丝刀去钉钉子，使多大劲都白搭。

未来模型走向融合：并行计算加随机探索

最后看看未来趋势。既然两种方式各有优势，而且互补，那最合理的路就是融合。论文最后给出了一个展望：未来的AI模型，很可能内部同时具备这两种能力。比如一个循环Transformer，但它每一层的内部不是确定性的，而是可以随机采样。或者一个思维链，但它在每一步可以并行生成多个候选，再选最好的。

你可以把它想象成一个人：他既有逻辑思维（潜在），又有发散思维（CoT）。做数学题时，他逻辑严密，一步步推。做头脑风暴时，他天马行空，各种试。这不是两个人格，而是一个人的两种能力。现有的研究已经在这方面尝试了，比如“思维树”方法，就是让思维链在每一步都生成多个分支，然后并行评估，再选最优。这本质上就是把CoT的随机探索和潜在思维的并行评估结合在了一起。

另一个方向是“可循环的思维链”，你在思维链的中间某一步，插入一个循环模块，让它反复琢磨当前这一步，再继续往下走。这就像你写作文，写到某个段落不满意，停下来改五遍，再写下一段。既有顺序结构，又有循环深度。

所以可以大胆预测，真正强的AI系统，不会只站一边，而是把两种能力融合成一个有机的整体。就像一辆好车，既要发动机（并行计算）也要方向盘（随机探索），还要变速箱（循环深度）。三个部件配合，才能跑得快、拐得准、爬得稳。

用一句人话记住整个逻辑

如果你只想记住最核心的东西，可以记这一句：

潜在思维加循环Transformer像一台超快的并行计算机，适合批量处理有结构的问题；思维链像一个爱试错的侦探，适合探索未知的复杂情况；两者谁也取代不了谁，未来的聪明模型会把它们揉在一起用。

论文的整个逻辑链条其实就四步：
第一，推理方式分两种（顺序 vs 并行）。
第二，并行方式天生比顺序方式在处理大量小任务时快。
第三，循环Transformer让并行方式变得便宜，用时间换参数。
第四，但顺序方式的随机探索能力是并行方式给不了的。

所以最后结论是互补，不是替代。你记住了这四步，就等于读完了整篇论文。

Claude Mythos潜在思维为什么在智能体中比OpenAI CoT思维链更强？

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道