作者从工程与科学双重视角剖析链式思维(Chain of Thought)的局限性,指出语言表达式推理效率低下,真正高效推理应脱离词元空间,迈向任务专属的嵌入表征。
在柏林Jina AI办公室的一个寻常下班后,三位工程师围坐争论:今天的大型语言模型(LLM)真能“思考”吗?
其中一位——也就是本文作者——坚定认为,即便GPT们表现惊艳,我们离人类智能、更别说通用人工智能(AGI),依然遥远。他原本以为自己手握“致命一击”:让模型分别列出“大于10万的前10个数字”和“大于10万的前10个质数”,两者在模型眼中竟消耗完全相同的计算量!因为LLM本质是自回归的,靠逐个预测下一个词元(token)生成答案,输出30个词元就做30次前向传播,不管任务多复杂。
可显而易见,找质数需要大量除法运算,远比简单递增复杂得多。
这说明要么模型一直在“过度思考”(不可能),要么它根本没在思考——只是调取统计记忆。
他以为这逻辑无懈可击,却没想到同事一句话把他拉回现实:你忘了链式思维(Chain of Thought, COT)!
链式思维是什么?让AI“边说边想”的神奇技巧
链式思维,简单说就是让大模型在回答问题前,先“自言自语”一步步写出推理过程。
比如问“13乘以17等于多少”,模型不再直接蹦出“221”,而是输出:“13乘以10是130,13乘以7是91,130加91等于221。”
这种看似啰嗦的做法,竟能显著提升复杂任务的准确率。
它就像给只会背书的学生配上草稿纸,允许它把解题步骤写下来——哪怕写得慢,至少不出错。
更关键的是,COT让模型能“动态调节计算预算”:难题就多写几步,多生成词元,多做几次前向传播;简单题就少说几句。在质数例子中,模型可以先写出“判断质数的算法:对每个候选数n,从2试除到√n……”,再一步步执行这个“伪代码”,最终输出结果。
这样一来,计算量确实随任务难度增长了——作者最初的论点被巧妙化解。他不得不承认,自己低估了“仅靠下一个词元预测”这一机制,在COT加持下所能迸发的潜力。
但作者心里仍不服:语言推理,效率低到令人发指!
尽管COT有效,作者却越想越不对劲。
他开始反思:人类真是靠内心独白(inner speech)来完成所有思考的吗?如果AI必须把每一步推理都“说”出来,那它本质上是在用最慢的方式解决问题。想想看,语言本是为沟通而生,不是为思考而设。我们用嘴说话,受声带肌肉、发音速度限制;用文字记录,受限于字符线性排列。若人类智能真的只依赖语言,那我们的大脑算力岂不是被嘴巴的物理极限锁死了?这显然荒谬。
作者举出大量反例:动物没有语言,却能规划狩猎路线、使用工具;人类在打牌、编程、做饭、收拾房间甚至踢足球时,常常“不假思索”就做出精妙决策——这些过程根本不需要内心复述语法规则或完整句子。
梅西0.5秒神操作:无语言推理的巅峰证明
最震撼的例子来自足球之神梅西。
在一段视频中,他背身接球后,瞬间利用裁判作为障碍物,一个轻巧变向让防守球员撞上裁判,自己从容突破。整个过程不到半秒!
作者犀利发问:在这0.5秒内,梅西经历了多少判断?看到对手位置、评估传球选项、发现裁判在旁、预判对手反应、计算碰撞角度、决定执行动作……若靠内心语言推理,哪怕每秒能默念10个词,也仅够说出“我见他…用裁…骗他…”这种碎片。
根本不足以支撑如此复杂、创新且精准的决策链!
这铁证说明:人类高级推理中,非语言的、直觉式的、并行的神经处理才是主力,语言只是事后总结或对外沟通的“压缩包”。而COT强迫AI把每一步都“朗读”出来,就像让梅西在突破前先写一篇战术论文——荒谬又低效。
语言是世界的“有损压缩”,不是思考的天然载体
更深层看,语言本质是我们对现实世界的人为抽象与简化。
我们用“苹果”这个词指代千差万别的果实,用“悲伤”概括无数细微的情绪状态。这种抽象利于交流,却丢失了大量原始信息。而AI若只在词元空间(token space)里推理,就等于在二手、低维、离散的符号世界里打转,无法触及问题的真实结构。
作者类比Stable Diffusion图像生成:早期有人尝试直接在像素层面生成图片,效果差且慢;后来聪明人想到先压缩到低维潜在空间(latent space)操作,再解码回像素——效率飙升!
同理,高效推理也应发生在任务专属的嵌入空间(task-specific embedding space),而非统一的、高维稀疏的词元序列里。
每个问题(如数学证明、电路设计、化学合成)都该有自己最紧凑的“思考坐标系”,而不是硬塞进“主谓宾”的语言模具。
链式思维只是LLM时代的聪明“补丁”,非终极方案
因此作者结论鲜明:COT确实强大,是当前LLM落地应用的利器,能撬动商业价值;但它终究是对自回归模型缺陷的巧妙修补,是“用语言模拟思考”的权宜之计。
它暴露了LLM的根本局限——缺乏独立于语言的内部推理机制。就像人类若只能用摩尔斯电码交流,思维速度必然被嘀嗒声拖垮。
今天的AI正困在“语言摩尔斯电码”中:每个推理步骤都必须翻译成可读文本,再喂给自己下一步。这不仅慢,还易错(语言歧义、格式混乱),更无法处理需并行或连续空间操作的任务(如物理仿真、实时控制)。
作者坚信,下一代AI架构必须打破词元牢笼,在更贴近问题本质的表征空间中直接运算——那时,真正的高效推理才会降临。
未来已来?推理或将迁移到“潜思维空间”
展望未来,作者暗示一条可能路径:将推理过程与语言生成解耦。模型可先在专属潜空间(latent reasoning space)中完成复杂计算,最后才将结论“翻译”成人类语言输出。这类似于人脑的运作——大量无意识处理完成后,才用语言区域组织成可述说的答案。
如此一来,AI既能保留LLM的语言优势,又摆脱其推理枷锁。计算资源不再浪费在冗余的“思考台词”上,而是聚焦于问题核心。
或许某天,我们会看到AI在几毫秒内完成复杂科学推演,却只用一句话告诉你结果:“根据量子场论计算,该材料在低温下呈现超导性。”——背后是沉默而高效的“潜思维”,而非喋喋不休的链式自语。
结语:别被语言幻觉迷惑,真正的智能在沉默中爆发
链式思维是AI发展史上的重要里程碑,它揭示了简单机制(下一个词元预测)通过结构创新(显式推理链)所能达到的惊人高度。但我们必须清醒:语言是智能的输出接口,而非处理引擎。将推理等同于语言表达,是对人类认知的误解,也是对AI潜力的自我设限。
正如梅西的天才在无言的0.5秒中闪耀,未来真正强大的AI,或许正沉默地在其专属的思维维度中,以我们无法窥见的方式,高速运转。