Claude Mythos潜在思维为什么在智能体中比OpenAI CoT思维链更强?


CoT与潜在思维彻底讲清:循环Transformer为何更强以及任务选择指南!

期刊/发表日期/原文标题/作者背景:
arXiv / 2026-01-30 / A Formal Comparison Between Chain of Thought and Latent Thought / 东京大学计算机科学研究团队

Claude Mythos 是一个循环的 Transformer?为什么循环能提升性能?在 ICML 2026 上的论文对此进行了正式解答。

本文用通俗比喻讲清思维链CoT与潜在思维(循环Transformer)差异,解释循环Transformer为何更强,并给出实际任务选型策略。



推理方式的差异直接决定了AI在具体任务上的表现好坏

很多人看AI论文,总喜欢问“哪个更强”,这个问题就像问“菜刀和炒锅哪个更厉害”,听起来就有点不对劲。关键不在谁强,而在你做什么菜。论文核心其实很接地气:不同推理方式,本质就是不同计算结构,结构一变,效率和能力就跟着变。就像你骑自行车和开汽车,都能从A到B,但拉一吨货的时候,自行车链条蹬断也白搭。

简单讲一句人话:思维链是“写一步,走一步”,潜在思维是“在脑子里算好了,直接出结果”。一个像排队买奶茶,前面那人纠结五分钟,后面全得等着。另一个像五个窗口同时做奶茶,你点完单,几个步骤一起搞,哗啦啦就给你了。所以理解推理方式,不是看名字多高级,而是看它“怎么干活”。只要你搞清楚这个“干活流程”,你基本就能预测它在哪些任务里会赢,哪些任务里会输得像乌龟赛跑。



思维链把推理变成一条单行道,每步都要喊出来

思维链的核心特点,说白了就是“每一步都要写出来”。模型生成一个词,再根据这个词生成下一个,再下一个,就像考试写证明题,老师要求你把“因为所以”全部写清楚。你心里其实知道答案,但还是得写“由此可得”“进一步推出”,一个字不能少。这种方式的优点很明显:过程透明,哪里错了可以回头看。就像你妈让你打扫房间,你列了个清单:先扫地,再拖地,再擦桌子。她一看就知道你有没有偷懒。

但问题也藏在这里:它必须一条路走到黑,不能跳步。前一步没走完,后一步动不了。像坐那种老式绿皮火车,每站都得停,前面车厢的人堵在过道,后面的人就只能干瞪眼。论文里管这叫“顺序依赖”,翻译成人话就是“排队排到崩溃”。当你处理一个长任务,比如算“(3+5)*(2+8)/4”,思维链会先算3+5得8,再算2+8得10,再算8*10得80,再算80/4得20。四步,一步接一步,像老奶奶上楼梯。

这让它在一个地方特别吃亏:当任务有大量可以同时算的小步骤时,它依然老老实实排队。就像你手里有十道口算题,正常人会一起看,先做三加五,八减二,但思维链偏要一道一道做。所以它的计算复杂度是O(步骤数),步骤越多,它越慢。像一个手工作坊,产量取决于师傅的手速。



潜在思维把推理变成多层大楼,每层所有活同时干

潜在思维走的是另一条路,它不把中间步骤写出来,而是在内部直接算。这个变化听起来不大,实际上像从爬楼梯换成了坐电梯。它的关键能力在于“并行”:可以把同一层内的所有计算一起做,然后一起进入下一层。就像建房子,你不是一块砖一块砖地砌,而是一层楼的墙、柱子、楼板同时施工,几十个工人一起上。

举个具体的例子,还是算“(3+5)*(2+8)/4”。潜在思维怎么干?它第一层同时算3+5和2+8,两个加法一起做,得8和10。第二层直接算8*10得80。第三层算80/4得20。你看,原来四步压缩成三步,而且第一步里两个加法是并行完成的。步骤越多,这个优势越明显。论文里给了一个比喻:潜在思维就像在脑子里画计算图,所有能一起算的节点,它都堆在一起算。

这个结构带来的好处非常直接:速度快,而且规模越大,优势越明显。就像你同时开十个下载线程,总比一个一个点完再点下一个要快得多。论文强调,这种方式本质是“在潜在空间计算”,翻译成人话就是在脑子里直接算,不用把过程写出来给别人看。就像你做心算,嘴巴没动,手里没写,答案已经出来了。但缺点也是有的:外人看不到你是怎么算的,像变魔术,只给你看结果。



并行能力让复杂问题的复杂度从步骤数降为层数

当你接受“潜在思维可以并行”这个前提后,一个非常关键的结论会自动跳出来:任务的复杂度不再取决于总步骤数,而取决于结构深度。什么叫结构深度?就是你必须先算完A才能算B的那种依赖链条的长度。还是在“(3+5)*(2+8)/4”里,依赖链条是:两个加法做完才能做乘法,乘法做完才能做除法。深度是3(加法层、乘法层、除法层)。但总步骤数是4。当任务更复杂时,这个差距会像拉面一样被越拉越长。

给你一个夸张一点的例子。假设有个任务,有一千个操作点,但只分十层结构。比如一层里做一百个加法,二层里做五十个乘法,三层里做二十个比较,等等。思维链要老老实实走一千步,像蜗牛爬长城。而潜在思维只要十轮,每轮里一百个加法同时算完。这就像搬砖:一个人搬一千块,和一百个人每人搬十块,谁先干完?不用算,你用脚趾头想都知道。

论文里专门做了复杂度分析。思维链的时间复杂度是O(T),T是总操作数。潜在思维如果用足够宽的并行,可以降到O(D),D是结构深度。而D通常远小于T。就像你写一篇作文,总字数一千字,但结构深度只是“开头-中间-结尾”三层。你不会一个字一个字地憋,而是先想大纲,再填内容。潜在思维干的就是这个事。所以在很多结构化任务里,比如表达式求值、图遍历、逻辑推理链条,潜在思维表现会非常猛,看起来像“突然开挂”。其实它没有变聪明,只是换了一种更高效的干活方式,从“单线程”变成了“多线程”。



循环Transformer用同一套参数反复计算,把深度变成时间

问题来了,潜在思维这么依赖“层数”,那怎么增加层数?传统方法很简单:堆更多层。比如把Transformer从12层加深到48层。但这样参数会暴涨,像公司从12个人扩招到48个人,工资开销直接翻四倍。而且每一层都要单独训练,成本起飞。论文里给了一个很聪明的办法:循环Transformer。它的核心思想是“用同一套结构反复计算”。就像写作业,你写完一遍,检查一遍发现错了,再改一遍,再改一遍,直到满意。你这个人没变,脑子没换,但思考次数增加了。

具体怎么干?看这段伪代码,我写给你看:

输入 x
for 循环次数 in 1 到 L:
    x = Transformer模块(x)   # 每轮都用同一个模块
输出 x

你发现没有?每一轮用的都是同一个Transformer模块,参数一模一样。但每循环一次,就相当于多了一层思考深度。这叫“参数复用”,像你用一个计算器算十道题,计算器没变,但你按了十次。或者更像一个老员工加班,他一个人干好几个人的活,虽然累一点,但公司不用招新人。

论文里对比了两种方式。传统深模型Transformer,层数是L,参数量是L * P(P是每层参数)。循环Transformer,层数是L,参数量是P,因为你只复用那一套。参数量直接除以L。这带来的好处非常现实:在相同参数量下,你可以拥有任意深的推理深度,只要肯花时间循环。当然代价是时间变长了,因为你要循环L次。但很多时候,我们宁愿多等一会儿,也不愿买一张几十万的GPU。就像一个学生,宁可熬夜复习,也不愿花十万块请一百个家教。



参数复用让循环Transformer在性价比上碾压传统深模型

循环结构还有一个特别现实的好处:省钱。你想想,传统深模型每一层都要新参数,像公司每个岗位都要招新人,前台、销售、财务、技术,全是不同的人。而循环模型只用一套参数,反复用,像一个保安大叔,白天看大门,晚上巡逻,第二天早上还帮忙搬东西。虽然事情多,但工资没涨。

论文里给了一个很直观的数据。假设一个任务需要50层深度才能算对。传统Transformer需要50层,参数量巨大,训练成本高到只有大公司玩得起。循环Transformer呢?它可能只用了5层的参数(比如一个很小的模块),然后循环10次,达到50层的效果。参数量只有前者的十分之一。这就好比你要搬50块砖。方案A:雇50个人,每人搬一块,一次搬完。方案B:雇5个人,每人搬一块,然后跑回去再搬,来回10趟。方案A快,但贵。方案B慢,但便宜。关键是,很多任务不急那一两秒,但差那几百万的训练费。

所以循环Transformer的核心优势不在“更快”,而在“更便宜地达到同样的深度”。论文里把它叫做“深度-参数解耦”,大白话就是你不需要为了增加深度而疯狂堆参数。你可以先做一个不大的模型,然后通过循环来增加思考次数。这就像你学数学,不需要先去读个博士才能做难题,你可以用中学知识反复琢磨同一道题,想十遍,总能想出来。对大模型公司来说,这种性价比非常关键。这也是为什么Claude、GPT这类系统在推理时会用类似“多次调用”的思路,因为它们更看重“推理效率”,而不是单纯堆规模。



思维链的随机探索能力在特定任务中不可替代

看到这里,你可能会觉得:潜在思维加循环Transformer这么牛,思维链是不是该扔进垃圾桶了?答案是绝对不能。因为思维链有一个非常独特的能力:随机尝试不同路径。它是逐步生成的,每一步都可以有不同选择,就像你走到岔路口,可以随机选左边或者右边。而潜在思维是确定性的,同一个输入,它永远算出同一个结果,像计算器按1+1永远不会等于3。

这个能力在什么任务里特别重要?比如近似计数、概率采样、组合爆炸问题。给你举个具体的例子:问“从1到100里随机抽两个数,和大于150的概率大概多少?”如果用潜在思维,它得把每种组合都算一遍,或者用公式推导,但公式可能很复杂。而思维链可以这么干:随机抽一百次,每次抽两个数,看看和大于150的有几次,然后估算概率。这叫蒙特卡洛方法,靠随机试,不靠算。

另一个经典例子是“旅行商问题”的近似解。给你十个城市,找一条最短路线。潜在思维得尝试所有10!种排列,那是一个天文数字,算到宇宙爆炸也算不完。而思维链可以随机尝试几千条路径,挑一条最好的,虽然不是全局最优,但够用了。论文里专门强调,思维链的随机性来自它的“自回归生成”特性,每一步都可以采样下一个词,像掷骰子。潜在思维没有这个机制,它更像一个确定性的函数,输入进去,输出出来,中间没有随机性。

所以思维链的价值在于“探索”,而不是“计算”。就像一个侦探,面对复杂的案件,他不会试图穷举所有可能性,而是不断提出假设,尝试推理,错了再换一个。而潜在思维像一个法医,只做精确的化验,给出确定的数据。两种能力,缺一不可。



两种推理方式形成互补关系,而不是竞争关系

把前面所有的结论拼在一起,你会得到一个非常清晰的图景。潜在思维加循环Transformer,负责高效、确定、并行的计算,像一个强力发动机。思维链,负责随机、探索、逐步的试错,像一个灵活的方向盘。单独看都不完整,组合起来才有意义。

论文里用一个很形象的比喻:潜在思维像下围棋时的“计算”,你脑子里同时推演很多个局部战斗,并行处理。而思维链像下棋时的“复盘”,你一步一想想清楚,看看哪里可能漏算。一个职业棋手,两种能力都要有。只会计算不会探索,你会被对手的奇招打蒙。只会探索不会计算,你每一步都在瞎蒙。

还有一个更生活化的例子:做饭。你煲汤,可以同时切菜、烧水、调味,这是并行。但你做一道复杂的红烧肉,需要一步步来:焯水、炒糖色、加调料、慢炖,每一步不能跳,这是顺序。一个厨房里,两种方式都有。不是说谁取代谁,而是看你在做什么菜。

所以论文最后强调的核心观点是:这两种推理方式不是竞争关系,而是互补关系。未来的AI系统,不应该只选一种,而应该根据任务动态切换。就像一个工具箱里,既有扳手也有螺丝刀,你不能说扳手更强就把螺丝刀扔了。



任务选型策略:能并行就并行,需探索就顺序

说到这里,最重要的问题其实已经很清楚了:在真实任务里,到底什么时候用哪个?我给你一个简单的决策树,用大白话讲。

第一类任务:结构清晰,可以并行。比如数学表达式求值、电路模拟、图上的最短路径(用动态规划)、矩阵乘法、逻辑推理链条(比如三段论)。这些任务的特点是,很多小步骤之间没有依赖关系,所以潜在思维能发挥并行优势。就像搬砖,砖和砖之间没关系,一百个人一起搬最快。论文里的实验数据也显示,在表达式求值任务上,潜在思维比思维链快3到10倍,而且表达式越长,优势越大。

第二类任务:需要探索,比如生成创意内容、概率估计、组合优化、游戏中的走法评估。这些任务的特点是,没有固定公式,试错比死算更有效。比如你写一首诗,你不知道哪个词最好,就得尝试“月光”“月色”“月华”,看看哪个顺眼。思维链可以帮你试,因为它在每步生成时都可以采样不同词。潜在思维不行,它只会给你一个确定的结果,像机器翻译,翻出来是啥就是啥。

第三类任务:混合型。比如解一道数学应用题。你先要理解题意(可能需要探索),然后列方程(可能需要并行计算),最后求解(并行)。这时候,最好的办法是先用思维链探索思路,再切换到潜在思维高效计算。论文里管这叫“组合策略”,就像你先用导航选路线,再一脚油门踩到底。

一句话总结选型策略:能一起干的活就别排队,需要多试的活就别死算。选对方法,效率直接翻倍。选错方法,再强的模型也会卡壳,像用螺丝刀去钉钉子,使多大劲都白搭。



未来模型走向融合:并行计算加随机探索

最后看看未来趋势。既然两种方式各有优势,而且互补,那最合理的路就是融合。论文最后给出了一个展望:未来的AI模型,很可能内部同时具备这两种能力。比如一个循环Transformer,但它每一层的内部不是确定性的,而是可以随机采样。或者一个思维链,但它在每一步可以并行生成多个候选,再选最好的。

你可以把它想象成一个人:他既有逻辑思维(潜在),又有发散思维(CoT)。做数学题时,他逻辑严密,一步步推。做头脑风暴时,他天马行空,各种试。这不是两个人格,而是一个人的两种能力。现有的研究已经在这方面尝试了,比如“思维树”方法,就是让思维链在每一步都生成多个分支,然后并行评估,再选最优。这本质上就是把CoT的随机探索和潜在思维的并行评估结合在了一起。

另一个方向是“可循环的思维链”,你在思维链的中间某一步,插入一个循环模块,让它反复琢磨当前这一步,再继续往下走。这就像你写作文,写到某个段落不满意,停下来改五遍,再写下一段。既有顺序结构,又有循环深度。

所以可以大胆预测,真正强的AI系统,不会只站一边,而是把两种能力融合成一个有机的整体。就像一辆好车,既要发动机(并行计算)也要方向盘(随机探索),还要变速箱(循环深度)。三个部件配合,才能跑得快、拐得准、爬得稳。



用一句人话记住整个逻辑

如果你只想记住最核心的东西,可以记这一句:

潜在思维加循环Transformer像一台超快的并行计算机,适合批量处理有结构的问题;思维链像一个爱试错的侦探,适合探索未知的复杂情况;两者谁也取代不了谁,未来的聪明模型会把它们揉在一起用。

论文的整个逻辑链条其实就四步:
第一,推理方式分两种(顺序 vs 并行)。
第二,并行方式天生比顺序方式在处理大量小任务时快。
第三,循环Transformer让并行方式变得便宜,用时间换参数。
第四,但顺序方式的随机探索能力是并行方式给不了的。

所以最后结论是互补,不是替代。你记住了这四步,就等于读完了整篇论文。