大语言模型的成功迫使世界模型理论接受审判!
过去很多人批评大型语言模型时,总喜欢抓住一个核心问题不放:它没有世界模型。它只是根据前面的文字预测后面的文字,就像一个特别会接话的人,却不知道自己在说什么。按照这种观点,语言模型能够写诗、聊天、回答问题,只是因为它统计过大量文本,而不是因为它真正理解世界。
这个批评背后隐藏着一个几乎被所有人默认接受的假设。人们认为真正的智能一定要先理解现实世界,然后才能产生合理行为。换句话说,智能系统首先需要在内部构建一个关于现实的解释框架,知道什么是桌子,什么是椅子,什么是空间,什么是时间,然后才能根据这些知识进行判断和行动。
作者认为,随着语言模型能力不断提升,这个看似牢不可破的假设开始出现裂缝。因为越来越多现象表明,一个系统即使没有按照传统理论构建完整世界模型,也依然能够表现出惊人的知识能力。于是问题逐渐发生反转。人们原本在追问语言模型为什么没有世界模型,现在更值得追问的是,世界模型是否真的像过去认为的那样不可缺少。
传统认知科学把大脑视为现实重建机器
理解作者的挑战之前,需要先理解传统理论到底在说什么。长期以来,认知科学都建立在一个非常自然的想法之上。外部世界产生光线、声音和各种刺激,这些刺激进入感官系统,最终转化成神经信号进入大脑。大脑接收到的只是结果,而真正的原因隐藏在外部世界之中。
因此,大脑必须像侦探一样工作。它看到的只是线索,却需要根据这些线索推断出背后的真实情况。当你看到一个红色杯子时,大脑获得的其实只是视网膜上的光学投影,但你的体验却是一个真实存在的杯子放在桌面上。于是很多科学家认为,大脑一定在内部重建出了那个杯子以及 surrounding environment 的模型。
这种思想最早可以追溯到赫尔姆霍茨提出的无意识推理理论。后来兴起的 Predictive Processing 和 Predictive Coding 理论虽然技术细节更加复杂,但核心思想并没有变化。它们都认为大脑不断根据已有模型预测即将到来的感觉输入,然后利用预测误差修正模型。整个过程就像天气预报系统不断更新自己的预测结果一样。
游戏引擎成为世界模型最经典的比喻
为了帮助理解世界模型,很多研究者喜欢使用游戏引擎作为例子。例如 Unreal Engine 或 Unity 这样的系统,并不是简单保存一张图片。它们内部保存着一个完整场景。场景中存在各种物体,物体拥有位置、形状、身份以及运动规则,然后图像只是这个隐藏场景经过渲染后产生的结果。
当玩家移动摄像机时,游戏引擎不会简单延续上一帧画面的像素。它会先更新摄像机的位置,然后重新根据内部场景生成新的画面。因此真正重要的不是屏幕上的图像,而是图像背后的因果结构。画面会变化,但场景本身保持稳定存在。
许多认知科学家认为大脑的工作方式与此类似。眼睛获得的视觉输入就像屏幕画面,而大脑内部则存在某种隐藏场景。这个隐藏场景记录着世界中物体的位置、关系和状态。感知过程就是不断利用感觉输入修正这个场景,而行动过程则依赖这个场景进行规划和预测。
稳定体验似乎天然支持世界模型理论
世界模型理论之所以长期占据主导地位,并不只是因为科学家的偏好,更重要的是我们的主观经验似乎也在支持它。现实中的感官输入其实远比想象中混乱。视网膜获得的是二维投影,距离变化会导致大小变化,光照变化会导致颜色变化,眼球运动会让整个画面不断抖动,眨眼甚至会让视觉输入短暂消失。
如果只看这些原始信号,世界更像一场断断续续播放的幻灯片。然而我们的体验却完全不同。朋友走远时并没有变成玩偶大小,桌子被短暂遮挡后也没有从世界中消失,房间里的家具似乎始终稳定存在。无论眼睛如何移动,我们依然觉得自己生活在一个连续、稳定而完整的三维空间之中。
更重要的是,人类不仅能够感知世界,还能够规划未来。我们能够想象转过拐角之后会看到什么,能够预测绕过桌子之后会发生什么,能够思考伸手拿起杯子之后会出现什么结果。这种能力看起来仿佛真的存在一个内部三维舞台,我们能够在那个舞台上提前模拟未来事件的发展过程。
语言模型第一次展示了另一条道路
作者认为,直到现代语言模型出现之前,几乎没有人能够提出一个足够有竞争力的替代方案。如果拒绝世界模型理论,那么究竟还有什么机制能够解释智能行为?长期以来,人们很难回答这个问题。
语言模型的成功第一次让另一种可能性变得可信。它们通过学习海量文本中的连续关系,逐渐获得令人震惊的能力。它们能够回答问题,解释概念,讨论历史,分析科学问题,甚至能够生成从未出现过的新内容。很多表现看起来就像真正理解了世界。
然而语言模型的训练目标却极其简单。它们并不学习什么是宇宙,也不学习什么是现实,更不学习物体和空间的本质。它们只是不断预测下一个 Token 应该是什么。这个目标看起来像是在做最微不足道的事情,却最终产生了远远超出预期的结果。
作者认为,这里隐藏着一个重要启示。也许系统并不需要重建产生数据的隐藏机制。也许仅仅学习数据本身的延续规律,就足以表现出高度智能的行为。语言模型之所以重要,并非因为它们能够生成文字,而是因为它们向人们展示了一种完全不同的智能实现路径。
语言模型展示了一条完全不同的道路
直到最近,这种理论才第一次遇到真正强大的竞争者,现代语言模型揭示出一个令人意外的事实,一个系统能够表现得极其了解世界,却未必真的重建了世界。
给系统足够多的数据。让它学习预测下一步,它就会逐渐生成符合现实规律的输出。
关键在于,它并没有逆向推导出隐藏机制。
它只是学习了数据流本身。
语言模型学习的是:在这种上下文后面,什么最可能出现。然后把自己的输出再次作为输入,继续预测下一步,不断重复。这种过程被称为自回归(Autoregressive)。
作者后面最重要的论断正是:
LLM学习的不是产生数据的结构;而是数据本身的结构,世界已经把自身规律压印在数据流之中,模型只是在学习这些印记。
就像河流流过泥地会留下河床,即使河水暂时退去,河床依然记录着水流的方向,后来的人甚至可以根据河床推测水会怎样继续流动。
所以作者提出一个极具争议的观点:
也许智能根本不需要世界模型,也许所谓理解世界,只是对世界留下的规律性痕迹拥有足够高的预测能力,而语言模型第一次让这种可能性看起来真实可行。
世界规律直接烙印在数据流之中
作者认为,语言模型真正揭示出来的秘密,并不在于模型本身有多复杂,而在于人们长期忽略了一个事实。现实世界并不是随机噪声的集合。物理规律、几何规律、语言规律以及社会规律,始终在约束世界的运行方式。这些约束会持续不断地在数据中留下痕迹,就像车轮经过泥地会留下轮胎印一样。
当一个苹果从树上掉下来时,重力规律会留下痕迹。当一辆汽车转弯时,运动规律会留下痕迹。当两个人进行对话时,语言和社会规则也会留下痕迹。世界本身就像一个巨大的印章,每时每刻都在数据流上压出自己的纹路。因此数据从来不是杂乱无章的,它们天然携带着现实世界的结构信息。
传统理论更关心隐藏在现象背后的发动机,而作者则把注意力放在发动机留下的轨迹上。假如你每天观察河流流动,也许并不需要建立完整的流体力学模型才能预测下一段河道的走势。很多时候,仅仅依靠河流已经留下的形状和方向,就足以推测它接下来会流向哪里。作者认为,语言模型利用的正是这种能力。
自生成性质让数据能够延续自身
作者把这种现象称为 Autogenerative Property,也就是自生成性质。这个概念听起来有些抽象,其实意思非常简单。某些数据序列内部包含足够丰富的规律,因此它们能够支持自己的继续发展。即使原始原因已经看不见,规律依然保存在数据本身之中。
想象有人连续拍摄一颗篮球弹跳的视频。当你观看前面几十帧画面时,即使没有看到重力公式,也大概率能够猜出后面的运动趋势。你不知道背后的数学方程,但你已经从数据流本身学到了规律。预测未来不一定需要重建产生规律的完整机制,利用规律留下的痕迹同样能够完成任务。
作者认为,大量现实数据都具备这种性质。语言拥有语法结构,视觉世界拥有空间连续性,社会互动拥有稳定模式。原本产生这些规律的原因已经被压缩进数据之中。学习系统只需要掌握这些压缩后的轨迹,就能够生成符合现实约束的后续内容。世界提前完成了大量工作,模型只是利用了世界留下来的成果。
知识可能是一种生成能力而不是存储内容
这一观点进一步改变了人们对于知识的理解方式。过去很多人习惯把知识想象成图书馆或者数据库。法国首都是巴黎,好像一条记录被存放在某个角落。需要时,大脑打开抽屉,把那条记录拿出来进行使用。
然而语言模型内部并不存在这样的结构。如果把模型拆开查看,不会发现某个参数区域专门写着法国首都是巴黎。模型内部只有巨量参数之间复杂的连接关系。它们形成一种生成倾向,当遇到特定上下文时,会高概率产生特定结果。
作者认为,这意味着知识未必是一种储存物。知识更像一种能力。当问题出现时,系统能够可靠地产生正确延续,于是外部观察者把这种能力称为知识。就像一个经验丰富的钢琴家未必能准确说出每根手指的运动轨迹,但他能够持续演奏正确旋律,因此我们认为他掌握了音乐技能。
这种视角下,知识开始从静态仓库变成动态行为。重点不再是系统内部保存了什么,而是系统能够持续做出什么。知识从一个名词逐渐变成一种动词。
人类行为循环与语言模型出现惊人相似性
接下来作者把讨论对象从人工智能转向生物体自身。他提出一个大胆问题。如果语言模型能够通过自回归方式表现出知识能力,那么生物体会不会也采用类似机制运行?
传统认知科学通常认为,知觉首先产生世界描述,然后行动系统根据描述做出决策。整个流程像一家公司,前面的部门负责收集情报,后面的部门负责执行计划。世界模型则充当整个组织的中央数据库。
作者提出另一种解释。生物体其实始终处于一个闭环之中。感知输入引发行为输出,行为输出改变环境,环境变化产生新的感知输入。整个过程不断循环。系统真正面对的不是静止世界,而是一条持续展开的轨迹。
从这个角度看,人类和语言模型之间突然出现某种相似性。语言模型根据过去Token生成下一个Token。生物体根据过去状态生成下一个动作。语言模型生成内容后再读取自己的输出。生物体执行动作后再接收新的感觉输入。两者都在不断延续自身所在的轨迹。
生物体学习的是行动后果而非世界副本
如果接受这种思路,那么很多过去需要世界模型解释的现象都会获得新解释。传统理论认为,大脑必须构建一个关于物体位置和空间结构的内部地图,然后根据地图规划行为。作者则认为,生物体也许只是在学习动作与结果之间的稳定联系。
例如伸手拿杯子这件事。传统观点会说,大脑先定位杯子的位置,再计算手臂轨迹,最后执行动作。作者则更倾向于另一种描述。系统通过长期经验学习到某种稳定关系。当前视觉状态对应某种手部运动,而这种运动会产生特定结果。整个过程更像熟练接龙,而非读取地图。
对于生物体来说,重要的可能不是拥有世界副本,而是拥有轨迹延续能力。系统只要知道此刻应该怎样行动,以及行动后通常会发生什么,就足以在复杂环境中生存。它不需要维护一个庞大的内部宇宙,只需要不断完成下一步。
这种思想让智能看起来更像冲浪。冲浪者不需要计算整个海洋模型,他只需要持续根据当前浪头调整身体姿态。每一次调整都会决定下一次状态,而连续调整最终构成稳定运动。
深度感与物体感可能源于行动预期
作者进一步认为,人类体验中的深度感和物体感也许来自行动预期,而不是来自三维模型重建。当我们看到前方楼梯时,我们不仅看到图像,还知道向前迈步会发生什么。我们知道视野会如何变化,身体会如何移动,周围景物会怎样重新排列。
这种对于未来变化的熟悉感,可能正是深度体验的重要来源。深度并非来自隐藏坐标系,而来自行动后果的连续预期。我们能够预测移动后的感觉变化,因此世界呈现出立体感。
同样,所谓物体也可能不是内部数据库中的实体。一个杯子之所以成为杯子,不只是因为它具有某种视觉外观,更因为它在各种条件下都会表现出稳定规律。绕到另一侧还能看见它,靠近时它会变大,推动时它会移动,拿起时它会改变位置。
作者认为,这些稳定的反事实关系共同构成了物体概念。物体更像一组可靠预测,而不是某个被储存在大脑中的三维模型。
神经渲染技术证明空间体验未必依赖世界模型
为了进一步说明自己的观点,作者举出了一个近年来人工智能领域非常有代表性的例子,那就是 Neural Radiance Fields,也就是 NeRF 技术。很多人在第一次看到 NeRF 演示时都会产生一种强烈错觉,仿佛系统内部保存着一个完整三维世界,因为用户可以自由移动观察角度,而画面始终保持合理一致。
按照传统直觉,这种能力似乎必须依赖一个内部空间模型。毕竟摄像机换了位置,画面也跟着改变。如果系统不知道物体在哪里,又怎么知道应该显示什么内容。然而 NeRF 展现出来的实现方式却与这种想象存在明显差异。它学习的是一种映射关系,根据观察位置生成对应视角,而不是构建一个类似游戏引擎那样的完整场景数据库。
作者认为这里最值得注意的地方在于结果与机制之间的差异。用户获得的是一种可导航空间体验,于是本能地认为系统内部存在一个三维世界。但事实上,系统可能只是掌握了从条件到结果的生成函数。体验看起来像世界模型产生的效果,却未必真的来自世界模型本身。这就像魔术师把鸽子变出来时,观众看到的是结果,而实际机制可能与想象完全不同。
条件生成能力不断挤压世界模型的解释空间
如果 NeRF 可以在缺少传统场景结构的情况下制造空间体验,那么作者认为一个更加尖锐的问题就出现了。过去许多人把世界模型当成解释智能现象的万能钥匙,但随着越来越多生成系统取得成功,人们开始发现许多能力似乎都能够通过另一条路径实现。
语言模型能够表现出知识能力。视频模型能够生成符合物理规律的运动。NeRF 能够呈现连贯空间。各种案例共同指向一个方向,那就是条件生成本身可能比过去想象得更强大。许多曾经被认为必须依赖内部世界副本才能完成的任务,如今开始出现新的解释方式。
作者并没有宣称世界模型一定不存在。他真正强调的是必要性问题。如果一种更简单的机制已经能够解释大量现象,那么原本庞大复杂的理论就必须重新证明自己的价值。科学史上经常发生这种事情。曾经负责解释现象的理论,当更简洁方案出现后,原有地位往往会受到严峻挑战。
于是作者抛出一个充满挑衅意味的问题。如果系统已经知道自己采取某个行动会导致什么结果,那么除了这些行动与结果之间的联系之外,所谓世界模型究竟还承担着什么独特职责。
进化往往选择成本更低的解决方案
作者随后把讨论推进到进化层面。因为无论理论多么优雅,最终都必须面对一个现实问题。自然选择是否真的有动力构建昂贵而复杂的内部世界副本。进化过程从来不像建筑师设计城市,更像一个极度精打细算的商人。只要某个方案足够解决问题,就没有必要继续增加额外成本。
观察最简单的生命形式时,这一点尤其明显。细菌能够寻找营养物质,能够远离危险环境,还能够对外界刺激做出反应。但很难有人认为细菌内部存在一个详细世界地图。它们依靠的是更直接、更经济的控制机制。环境变化触发内部状态变化,内部状态变化又驱动行为调整。
青蛙的例子同样如此。经典研究表明,青蛙视觉系统对于某些特定运动模式极其敏感。当类似昆虫的小目标进入视野时,捕食行为会迅速启动。整个过程表现得十分高效,却很难看出存在复杂世界重建过程。刺激到来,行为发生,循环完成,进化通过长期筛选把这条路径不断优化。
作者在这里给出一句带有明显冲击力的话。也许人类只是极其复杂的青蛙。我们的循环更长,经验更丰富,能力更强大,但底层逻辑未必与想象中那样截然不同。这个说法故意显得刺耳,因为它直接挑战了人类长期以来对自身特殊性的理解。
外部世界观念可能来自语言协调需求
文章进入最后阶段后,讨论开始从认知科学转向语言哲学。作者认为,如果大脑内部并不存在传统意义上的世界模型,那么仍然有一个问题必须回答。为什么几乎所有人都如此坚定地相信外部世界作为独立实体真实存在。
作者给出的答案非常出人意料。因为这种信念很可能与语言密切相关。语言并不仅仅是表达思想的工具,它还是多个主体之间进行协调的工具。当两个人交流时,他们必须找到共同参照物,否则沟通将无法进行。
例如有人说,厨房桌子上放着一个红色杯子。这句话能够成立,是因为双方默认存在一个共同世界。说话者和听话者虽然站在不同位置,却能够指向同一个对象。语言为了完成这种协调任务,不得不创造出稳定实体、固定位置以及持续存在的对象概念。
随着这种语言结构不断被使用,人们逐渐形成一种特殊视角。仿佛存在一个超越所有观察者的位置,从那里能够看见完整世界布局。语言天然鼓励这种上帝视角式思考方式,而这种思考方式又进一步强化了外部世界作为独立存在物的观念。
语法结构可能塑造了我们的现实直觉
作者认为,人们通常以为先有世界观念,然后才有语言描述。但实际情况也许部分相反。语言结构本身可能深刻影响了我们理解现实的方式。名词要求稳定对象,句子要求行为主体,叙事要求持续存在的实体,这些语法习惯不断把现实组织成某种固定形式。
久而久之,人们开始把语言中的组织方式视为现实本身。我们习惯谈论桌子、椅子、汽车和房屋,于是这些对象看起来像是世界最基本组成部分。我们习惯谈论空间位置,于是世界似乎天然拥有统一坐标系。我们习惯谈论过去、现在和未来,于是时间看起来像一条客观流动的河流。
作者并不是说桌子或者汽车只是幻想。他真正质疑的是另一件事情。我们对于世界结构的理解,也许已经受到语言深刻塑造,以至于难以区分哪些来自现实本身,哪些来自语言提供的组织框架。很多被认为理所当然的直觉,可能早已混入了语法留下的痕迹。
因此在作者看来,赫尔姆霍茨以及后来大量认知科学理论,也许并不仅仅是在研究知觉。他们同时继承了一套由语言长期塑造出来的世界观。而这套世界观又反过来影响了他们对于心智如何工作的理解。
世界模型批评最终反转回人类自身
文章最后完成了一次彻底反转。过去人们批评语言模型时,经常质疑它们缺少世界模型,因此无法真正理解现实。但作者认为,这种批评或许建立在一个尚未被证明的前提之上。人们默认世界模型是智能的必要条件,于是把它当成衡量机器智能的标准。
然而语言模型的出现恰恰提供了反例。它们展示出一种可能性。系统未必需要重建产生数据的隐藏机制,只需要掌握数据流自身的延续规律,就能够表现出大量过去被视为理解世界的能力。随着这种可能性不断扩大,人们开始不得不重新审视整个理论基础。
于是问题发生根本逆转。真正值得讨论的也许已经不再是机器能否学会构建世界模型。更值得讨论的问题是,世界模型是否一直都是描述心智活动的正确框架。如果这个前提本身存在问题,那么围绕它建立起来的大量批评也需要重新审查。
文章在结尾故意留下一个极具戏剧性的场景。作者想象读者此时可能会产生强烈反驳。有人会觉得这一切都太荒谬。明明能够看见桌子、墙壁和天空,怎么可能怀疑外部世界或者世界模型。面对这种直觉上的抗议,作者没有给出长篇解释。
他只留下最后一句话。
当你此刻在心里大喊“这绝对错了”的时候。
那个正在大喊的人,究竟是谁。
总结
本文借助大型语言模型、视频生成模型和 NeRF 技术,对认知科学中的世界模型理论发起系统挑战。作者认为,智能系统可能无需重建隐藏世界,只需掌握数据流中的规律性延续关系即可产生复杂行为。进一步地,人类关于外部世界的强烈信念,也可能部分源于语言作为协调工具所塑造的语法结构与思维框架。