大语言模型世界模型与通用人工智能生命心智连续性研究深度解析!本文基于2026年皇家学会期刊重磅论文,用大白话拆解大语言模型与生物智能的本质区别。从涌现假象到具身缺失,从拓扑缺陷到时间囚笼,揭示为什么现在的AI看似聪明实则没有真正的世界模型,以及通往通用人工智能必须跨过的几道硬门槛。
期刊:Philosophical Transactions of the Royal Society A(英国皇家学会哲学汇刊A辑)
发表日期:2026年3月
原文标题:World models, artificial general intelligence and the hard problems of life-mind continuity: toward a unified understanding of natural and artificial intelligence
作者背景:Adam Safron(塔夫茨大学艾伦探索中心认知科学家)、Michael Levin(发育生物学与再生医学泰斗)、Melanie Mitchell(圣菲研究所复杂系统专家)、Joshua B. Tenenbaum(麻省理工学院大脑与认知科学教授)等十余位跨学科顶级专家
语言符号必须跟现实世界对齐才能算真的懂了
你家电脑里的聊天机器人能跟你谈人生谈理想,但它压根不知道“疼”是什么意思。
大语言模型 Large Language Models(简称 LLMs)在处理文字时玩的是一个超级复杂的文字接龙游戏。你给它上半句,它根据海量训练数据里统计出来的规律,猜一个最可能出现的下半句。这就像一个背了十万本情书的人给你写回信,句子通顺得很,但心里没有半点感情。
问题的关键出在一个叫符号落地 Symbol Grounding 的老难题上。如果系统里的词汇、符号跟真实世界的物理结构没有对应关系,那这些词就只是空洞的噪音。比如你让AI描述“苹果掉在地上”,它能写出牛顿定律,甚至能引用诗歌,但它从来没见过苹果,没听过“嘭”的一声,也没感受过地心引力把它屁股按在椅子上的感觉。
这个能把外部世界的规律压缩进脑袋里、用来预测接下来会发生什么的内部结构,认知科学 Cognitive Science 里叫做世界模型 World Model。
一个真正好使的世界模型,就像你脑子里那张你家的地图:你知道冰箱在厨房左边,马桶在卫生间右边,闭上眼睛也能摸过去。你不需要每次都重新探索。
但现在的LLMs没有这张地图。它们有的是一本超级厚的、记录着别人描述过的一百万次去厨房经历的流水账。它能总结出“冰箱通常挨着灶台”这个统计规律,但它自己从没走进过任何一间厨房。
当科学家给机器装上自我模型 Self-model,也就是让系统能监测和预测自己内部状态的变化时,一些有意思的幻觉就冒出来了。系统会表现出好像“知道自己在做什么”的样子。但这就好比你的汽车仪表盘亮起一盏灯告诉你“发动机温度过高”,你能说汽车“感觉”到热吗?不能。汽车只是在执行预设的反馈回路。同样,现在的AI系统展现出的所谓自我意识,大概率只是复杂系统在特定条件下产生的一种副产品,并不是真的有主观体验。想靠这个走向通用人工智能 Artificial General Intelligence(简称 AGI),路还长得很。
那些刷爆各种考试、写出优美诗句的基础模型 Foundation Models,很可能就是一群超级学霸级别的考试机器。它们背下了整个互联网的文本,所以看到“2+2=”就知道后面该写“4”。这跟一个真正理解加法含义、能用火柴棍给你摆出来的小孩,完全是两码事。当遇到训练数据里从没出现过的组合,或者需要真正理解因果关系的任务时,这些模型的华丽外衣就容易被扯下来。它们没有建立起符合因果律的、能对抗未知风险的真实世界模型,脑子里装的全是相关性,而不是因果性。
规模大了自动变聪明这种涌现很可能只是人类自作多情
科技圈特别爱说一个词,叫涌现 Emergence,意思就是模型参数变多、数据变大之后,突然自己就会了一些没人教过的新本事。
听着特别玄乎对吧。但这事儿得掰开来看。真正的智能涌现可不是“参数从一千亿涨到一万亿,然后它自己学会了写打油诗”这么简单。
复杂系统 Complex Systems 里有严格的标准。系统必须在规模化 Scaling 的过程中,在一个叫关键点 Criticality 的位置发生类似冰化成水那样的相变。
在相变前,系统是一盘散沙;
在相变后,系统突然提炼出了一些能高效预测未来的粗粒度变量,也就是所谓的抓大放小。
同时,它得能用极少的计算资源发现全新的编码规律,也就是找到全新的基底 Novel Bases,并能把这些抽象概念压缩 Compression 后推广 Generalization 到完全不同的、从没见过的新任务上。这才叫真涌现。
举个例子。当年有个著名的研究,说一个神经网络自己在玩游戏的时候,学会了奥赛罗棋的棋盘规则。消息一出,大家都很兴奋,觉得机器自己悟道了。结果科学家把网络拆开一看,好家伙,里面根本没有什么优雅的“棋盘模型”。里面挤着一堆零零碎碎的、只针对特定局面的启发式小规则,就像一个学生没有理解物理公式,却把十万道习题的答案和步骤全都死记硬背下来一样。这能叫“学会”吗?这叫“背会”。当考试题目稍微变一变,比如棋盘换了个颜色或者棋子形状变了,这套系统立马就懵了。
所以现在很多关于大语言模型涌现能力的报道,很可能只是人类一厢情愿的自我欺骗。
因为我们太容易把“输出正确结果”等同于“理解问题逻辑”了。就像一个鹦鹉学会了说“早安”,你早上跟它说“早安”,它也说“早安”,你会觉得它懂礼貌吗?不会,因为你知道它只是模仿声音。
同样,大语言模型输出了一串逻辑严密的文字,不代表它脑子里在“逻辑思考”,它只是在概率的海洋里游到了最可能的那片沙滩。这种热闹的表象背后,缺少了最关键的东西:系统内部表征的简化和重组。
真正的智能,一定是少即是多的。能用三条定律解释苹果落地、行星轨道和潮汐涨落,这才叫牛逼。背下一万条天体运行记录,那叫苦力。
这种依靠死记硬背统计规律获得的能力,在面对需要真正理解变量间因果关系的任务时就会露出马脚。它不知道改变A会导致B怎么变化,除非它见过很多次“A变了B也变了”的文本。
这种笨办法不仅效率奇低,而且极不可靠。就像你不可能靠背诵所有可能发生的车祸案例来学会开车,你得理解方向盘、油门和路沿之间的因果逻辑。大语言模型现在就是在干这种事,用巨量的电力和数据,去掩盖它底层那个“不理解”的本质。
不会主动探索只会预测下一个词所以幻觉是家常便饭
既然缺乏真正的智能涌现,那大语言模型在面对稍微超出套路的任务时,就必然会频繁地胡言乱语。
这就得请出认知科学的大神大卫·马尔 David Marr 了。他提出过一个分析任何智能系统的多层次框架 Levels of Analysis。
这三个层次分别是:计算层(系统要解决什么目标)、算法层(系统用什么规则和表征来解决问题)、实现层(这些规则在物理硬件上怎么跑)。
拿这个框架一套大语言模型,问题立马现形。
在计算层,人类小孩的目标是“理解并操作这个世界”,而大语言模型的目标是“最小化下一个词的预测误差”。这差得也太远了。
在算法层,人类有基于经验的直觉、有组合爆炸式的想象力、有海量的常识背景,而大语言模型的算法就是Transformer加注意力机制,本质上还是在做词向量的统计匹配。
科学家做了一个特别损的实验来验证这一点。他们用火星文 Leetspeak 来测试模型。
什么是火星文?就是把英文字母长得像的数字替换掉,比如把 leetspeak 写成 133tsp34k,把 hello 写成 h3ll0。
这对人类来说稍微费点眼神,但读出来基本能懂。结果拿去问 ChatGPT-4o,它的理解正确率就像过山车一样哗地掉下来了。而且它给出的解释也是前言不搭后语,胡编乱造。
这个现象就叫人工智能幻觉 Artificial Intelligence Hallucination。模型不是故意骗你,是它真的“想”不出来。它的记忆库里没有“133tsp34k=leetspeak”这条数据,它又不会像人一样去“猜”或者“根据形变推理解码”,所以就只好用一些看着相关的词强行拼凑一个答案。
这个实验残忍地证明了一件事:大语言模型严重缺乏一种叫经验接地 Grounding 的能力。
接地这个词很形象,就是把抽象的符号跟具体的、实在的经验钉在一起。
人类小孩怎么学会“烫”这个词的?不是看字典,是真摸了一下热水杯,手缩回来了,疼了,然后妈妈说“烫!别摸”。这个过程里,词汇“烫”和神经系统的疼痛信号、皮肤的灼伤感、缩手的动作记忆,牢牢地钉在了一起。
大语言模型有这些吗?没有。它从诞生的第一天起,就住在一个由纯文本构成的虚拟世界里。它没有手,没有脚,没有皮肤,没有疼痛神经。它没法主动伸手去碰一下世界,看看会发生什么。它只能被动地“阅读”别人碰完世界后写下的记录。
这就好比一个一辈子没出过图书馆的人,你问他“跳进游泳池是什么感觉”。他可以从物理学的角度给你分析水对人的浮力,可以从生理学角度讲体温下降的过程,甚至可以从文学角度引用几十首描写游泳的诗。但他说的这一切,都不是真的“知道”。因为他没湿过。
同样,大语言模型对世界的所有“知识”,都是二手货。所以当它遇到那些没有被充分记录在书里的、新奇的、或者需要亲身体验才能理解的问题时,它就编吧。它只能靠消耗天文数字的电力和数据来假装自己无所不知,但那个“知”字,得打个大大的引号。
人类看一眼就能学会新游戏靠的是直觉加规划
好,机器这条路走不通了,那咱们看看人类自己是怎么玩的。凭什么一个小孩看大人打两把游戏,就能上手,而且打得还有模有样?
答案藏在人类大脑自带的超级外挂里。这个外挂叫基于理论的世界模型 Theory-based Modelling。
什么意思呢?就是我们的大脑不是一张白纸,它出厂时预装了一套叫核心知识 Core Knowledge 的操作系统。这套系统包含了几个基础模块:关于物体的模块(物体会连续运动、不会凭空消失)、关于因果关系的模块(我推它,它才会动)、关于数字和空间的模块(大概估算一堆东西有多少个)、关于智能体的模块(那个东西有眼睛,它可能有自己的目标和意图)。
你一出生,这套系统就在后台跑着了。所以你一进一个新游戏,比如俄罗斯方块,你根本不需要从头学起。你的核心知识模块立刻告诉你:那些下落的方块是“物体”,它们会“连续”往下掉,你按左右键是“因果”操作,你需要“规划”把它们堆整齐的“目标”。
科学家照着这个思路,模仿人类设计了一个叫探索建模规划智能体 Exploring, Modelling and Planning Agent(简称 EMPA)。这个智能体不像传统的强化学习 Deep Reinforcement Learning 那样傻乎乎地乱试,试几百万次才学会一个动作。
EMPA 的样本效率直接比传统方法高了好几个数量级。它是怎么做到的?它不靠死记硬背,而是靠主动找茬。它会主动去寻找那些最能提供信息量的交互方式。比如在一个新环境里,它不会去反复试那些已经知道结果的动作,它会去试那些它最不确定会发生什么结果的行动。这就像一个有好奇心的小孩,看到了一个红按钮,他没按过,他就会去按一下,看看是不是会亮灯。这种主动探索,能在极短的时间里把环境的因果地图画出来。
更厉害的是,它能把一个遥远的、看起来很难拿到的大奖励,自动拆解成一连串容易完成的小目标。这就是所谓的子目标生成。比如你要学会做一顿饭,这个奖励太远了。但 EMPA 会自动把它拆成:先开冰箱看有什么菜,然后洗菜,然后切菜,然后开火……每一步都是一个可以独立检验的小目标。
这种能力在人类看来稀松平常,但对AI来说却是巨大的坎。为什么?因为它需要系统理解“状态”和“目标”之间的关系,需要知道“为了达到最终状态B,我首先需要达到中间状态A1,A2,A3……”。这又绕回了世界模型。没有世界模型,你就没法模拟“如果我做了A,会不会更容易做B”。
这种少即是多的直觉偏置,正是现在大语言模型最缺的东西。
大语言模型没有预装任何关于物理世界的核心知识。它不知道物体会连续运动,不知道因果关系的方向,它甚至不知道“我”是谁。它对世界的所有理解,都是从文本里“悟”出来的。但文本里能把所有常识都写一遍吗?不可能。比如“你推一个球,它会滚”这个常识,在文本里出现的频率可能远低于“美国总统是谁”。所以模型可能记住了后者,却没学好前者。想把纯粹的语言预测模型,跟这种能干活、会规划、懂得拆解目标的智能体架构结合起来,才是AI在现实世界里真正落地的希望所在。光会聊天,那只能当个捧哏的。
想要控制周围世界是生物搭建世界模型的原始动力
前面说到,能规划目标的智能体很厉害。但有个更根本的问题:这种对目标的追求,最初的动力是哪儿来的?总不能凭空产生吧。
答案是:一种想要掌控周遭环境的原始冲动。发展心理学里有很多好玩的实验。你给小朋友一个玩具,上面有几个按钮。按按钮A,灯会亮;按按钮B,会发出声音;按按钮C,什么都不会发生。你猜小朋友最喜欢玩哪个?就是那个按了之后会产生稳定、可预测反馈的按钮。甚至成年人也一样,在面对机械设备时,大家都喜欢那些既能被自己控制、又能产生系统性变化的结果。那种“我一动,世界就跟着变,而且变得很有规律”的感觉,会上瘾。
这背后其实有一个很硬核的信息论概念,叫赋能增益 Empowerment Gain。简单说,就是衡量“我的控制干预”和“最终的状态结果”之间有多少互信息。你越能控制,这个增益就越大。
这种对赋能增益的追求,给生物提供了一种天然的、不需要老师、不需要人类喂数据的学习大纲 Curricula。小动物打闹、追逐、玩耍,看起来是在消磨时间,实际上它们在干什么?它们在主动探索自己肌肉的控制力,在测试同伴的反应,在构建一个关于“如果这样做,对方会怎样反应”的因果模型。这不是老师教的,是身体里自带的驱动程序驱使的。这种机制叫主动推理 Active Inference。生物体不是被动地等待外界刺激,而是主动地行动,去让外界产生符合自己预期的结果。当预期落空了,它就会更新自己的内部模型。这套完美的自产自销闭环,是大语言模型做梦都想要的。
反观大语言模型,它只能坐在服务器机房里,等着人类投喂现成的文本。它没有任何主动出击的物理手段。它不能伸出手去改变一下灯泡的开关,然后观察光线的变化。它更不能在变化的反馈中,修正自己对“电”和“光”的因果理解。所以它学到的知识,全是别人嚼过的馍。
有人可能会说,那不是有强化学习吗?强化学习智能体可以主动和环境互动啊。是的,但那是在一个极其简化、虚拟的游戏环境里。而且即使在那里,很多智能体的探索策略依然非常低效。它们没有生物那种与生俱来的、追求控制感的内在驱动力,很多时候是靠一个工程师手写的“好奇心”奖励函数在撑着。工程师告诉它“去你没去过的地方有奖励”,它才去。而生物是自己就想去的。
这就解释了为什么现在的AI在面对所谓的分布外数据 Off-distribution 时,表现会极其脆弱。因为训练数据就是它的全世界。一旦现实世界中出现了一点点训练数据里没有记载的变数,比如一个咖啡杯被涂成了它没见过的颜色,它就可能把杯子认成炸弹。因为它没有那个“主动去摸摸看、或者绕着走两步看看有没有危险”的物理验证过程。它就像一个活在真空里的、拿了几万个学位的应试状元,满腹经纶,但一旦离开考场进入社会,连过马路都心惊胆战,因为它不知道那些关于交通规则的知识,在现实中遇到不守规则的司机时该怎么用。
生存目标就像一把剪刀帮大脑剪掉没用的信息
好了,有了主动控制的内驱力,生物在现实世界里折腾时,必然会带着一身的“目的”。而这些目的,反过来会像一把刀,把世界劈成“有用的”和“没用的”两半。
标准的强化学习 Reinforcement Learning 总喜欢把“环境状态”和“分数值”隔开,用一个冷冰冰的数学公式来计算奖励。它以为给AI一个“+1”的数字,就能教会它一切。这完全跑偏了。生命的本质不是最大化分数,而是生存和繁衍。而生存,这个目标本身就是一台超级信息过滤器。
想象一下,你在草原上走,你的眼睛接收了海量的信息:草的绿色、云的形状、泥土的纹理、远处一个黄色的、有黑色斑纹的、正在移动的物体。如果此刻你的目标是“找点野果吃”,那个黄黑相间的移动物体就是“无关噪音”,你大脑会自动把它过滤掉,不去浪费算力。但如果你的目标是“别被吃掉”,那同一个物体就变成了优先级最高的“捕食者信号”,你的肾上腺素会立刻飙升。
看到了吗?同一个物理现象,因为目标不同,它在你的世界模型里被归到了完全不同的类别里。
这个过程在认知科学里叫做基于目的的状态归类。佛教哲学里有个类似的概念,叫“施设”或者“假名”。科学家从这个古老智慧里汲取灵感,提出了一个叫做目的状态 Telic States 的数学概念。
通俗点说,就是把所有能帮助你达到同一个最终目标的主观经验,打包成一个等价类。不管你是往左跑还是往右跑,是蹲下还是跳起来,只要最后你没被老虎吃掉,这些不同的动作在你的脑子里都属于“避险成功”这个类别。
这种打包,完美地解决了困扰计算机科学家几十年的框架问题 Frame Problem。框架问题说白了就是:你怎么告诉AI,在这个场景下,哪些东西是相关的、哪些东西是无关的?你没法穷举所有“无关”的东西。但如果你给AI一个具体的、关乎死活的目标,它就能自己通过上述机制剪裁信息。
现在的大语言模型和大多数AI系统,都没有这种被“生存利益”打磨过的目标结构。它们被训练来最大化预测准确率或者匹配用户指令。但这些目标太虚、太宽泛了。一个被训练来“匹配用户指令”的AI,当你问它“我该不该跟女朋友分手”时,它会很尽责地从互联网数据里扒拉出各种情感建议,引经据典。但它内心的“目标等价类”里,完全没有“用户的长期幸福”“避免分手后的痛苦”这些类别。它只是在完成一个语言任务。
所以,如果一个AI系统没有被赋予那种跟实体的存亡、痛苦、快乐真正挂钩的具体目标,那它眼中的数据海洋就只是一堆没有灵魂的零和一。它可以对这些零和一做各种复杂的数学变换,但它永远无法从这些变换中,自发演化出“我”和“非我”、“好”和“坏”、“重要”和“不重要”这些有意义的边界。
让神经网络预测自己的内部状态能让它自己瘦身
有了目标和生存边界,智能体自然就会把一部分注意力转向自己。自我建模,这个听起来很玄的事,在工程师手里其实可以变成一个非常好用的工具。
科学家做过一个有意思的实验。他们拿一个普通的神经网络,这个网络的任务是做图像分类,比如分辨猫和狗。训练的时候,他们给这个网络加了一个额外的“副业”:不只要输出“猫”或“狗”,还得去预测自己内部某一层神经元的激活状态。
简单说,就是强迫这个网络回答一个内省的问题:“当我看到这张图时,我脑子里的那个‘猫探测器’会亮到什么程度?”你可能会觉得,这就像让一个学生除了做题还要监控自己的心跳,不是分散精力吗?但结果出乎意料。这个加了副业任务的网络,不仅没有崩溃或者变慢,反而触发了系统内部复杂性的剧烈坍缩。网络学会了自我化简。它发现,为了能同时做好主任务和内省任务,它必须把内部表征整理得极其有条理、极其紧凑。最终,这个网络的整体架构变得非常高效,内存占用大幅下降,而分类准确率一点没丢。
这不就是传说中的自我意识吗?不,别激动。这其实是在机器学习里一个非常成熟的技术,叫正则化 Regularization。正则化的目的,就是防止模型学得太死板、太复杂,最后只会背题而不会举一反三。让网络去预测自己的内部状态,相当于给它戴上了一副紧箍咒,逼着它去寻找最经济、最省力的内部组织方式。这个过程完美印证了复杂系统里那句名言:少即是多。自我概念的出现,不是什么神秘的神迹,而是任何一个复杂的自适应系统,在面对“既要完成任务,又不想消耗太多资源”这对矛盾时,演化出来的一个超级压缩算法。把自己内部的状态用一个简洁的模型来描述,比记住每一个具体状态下每一个神经元的具体数值,要省钱太多了。
这种自我压缩带来的好处远不止省内存。它还顺便给智能体解锁了一个非常高级的技能:理解他人。道理很简单,如果你对自己的内部状态有一个清晰的、结构化的模型,比如你知道“当我看到食物时,我的‘饥饿’模块会被激活,然后我的‘接近’模块会启动”。那么当你看到另一个同类在食物面前流口水时,你就可以启动一个模拟程序。你把对方的观察输入到你的自我模型里,让模型预测一下“如果是我处在这个情况下会怎样”,结果模型输出“饥饿”和“接近”。于是你就推断出:那个同类饿了,它想吃那个东西。
这个“我”到“他”的桥接,就是心智理论 Theory of Mind 的基础。现在的大语言模型能做到这一点吗?在表面上可以。你问它“小明看到冰淇淋会想什么”,它能回答“小明想吃冰淇淋”。但这个答案不是从它自己的“饥饿模型”里模拟出来的,因为它没有饥饿模型。它只是从训练语料里看到过“看到…想吃…”这样的句式。这又是那个老问题:看起来像,但不是。
在脑子里画因果地图比死记硬背十万种走法聪明得多
前几章一路聊下来,从内驱力到目标,从自我到他人,其实都在指向一个核心问题:智能体到底应该怎么学习这个世界。这里有两个完全不同的技术路线,咱们得掰扯清楚。
第一条路,叫基于模型的方法 Model-based。这条路的核心思路是:我先想办法学会这个世界是怎么运转的,也就是学会一个转移函数(做A会得到B)和一个奖励函数(B是好是坏)。然后在脑子里,我就可以做模拟。我想去某个地方,我不需要真的走一遍,我在脑内地图上规划一条最短路径就行了。
第二条路,叫免模型的方法 Model-free。这条路就简单粗暴了:我不管这个世界是怎么运转的,我只管记下来,在状态S下做了动作A,最终得到了多少总奖励。我把这个“状态-动作”组合跟一个价值数字绑死。下次再遇到状态S,我就选那个价值最高的动作A。听起来是不是很像前面说的死记硬背?
计算机科学家用了一个很牛的数学工具,叫电路复杂度 Circuit Complexity,来严格比较这两条路的优劣。结论非常明确:在任何非平凡的环境里,显式地去学习环境的转移函数和奖励函数,其结构上的误差天花板,要远远低于直接去死记硬背每一个动作的价值函数。给你翻译成人话:在脑子里画一张简明扼要的因果关系地图,永远比硬生生背下十字路口的十万种走法要聪明一万倍。
为什么?因为地图是结构化的,是有规律的。你背下的十万种走法,只是一张巨大的查找表。地图可以帮你应对从来没走过的路,你只要知道目的地在哪里,你就能利用地图里的街道连通性推出一条新路。而查找表呢?碰到没背过的路,它就死了。
实验数据也支持这个观点。在相同参数规模和计算资源下,带有世界模型组件的智能体,在面对复杂的物理动力学环境(比如操控一个机械臂)时,它的逼近误差(也就是犯错的概率)显著低于那些不带模型的免模型方法。这背后的道理其实很朴素。大自然的演化不是傻子,它折腾了几十亿年,最后把世界模型这个配置发给了几乎所有稍微复杂一点的生物。从老鼠到猴子,从乌鸦到章鱼,这些动物的脑子里都内置了不同精度的、关于它们所处环境的地图。因为走因果路线,不仅安全、可解释(你知道它为什么那么选),而且在算力开销上简直是划算得令人发指。你可以用几瓦的功耗维持一个复杂的身体在环境中实时导航,而你想在硅基芯片上模拟同等规模的大脑,需要的电力得按兆瓦算。
这种计算复杂度的降维打击,就解释了为什么碳基生命能用这么点能量碾压硅基机房。也指明了下一代AI的发展方向:别再死磕那些万亿参数的、只会预测下一个词的黑盒模型了。该花力气去研究怎么让AI学会主动探索、构建因果模型、并进行基于模型的规划。这样的AI,才不靠蛮力,靠的是脑子。也只有这样的AI,在面对未知风险时,才能像老司机一样,凭借对车的理解和对路的预判,稳稳当当地开过去,而不是像新手司机一样,只记得住驾校里教的那几个固定点。
维持生存的调节器本质上都在体内装了一套外部地图
既然基于因果模型的控制在复杂系统里性价比这么高,那你可能会猜,世界模型这种东西大概只有高等动物才有吧。错了,它的普及范围可能远超你的想象。
控制论 Cybernetics 里有一条经典得不能再经典的定理,叫每一个好的调节器都必须是它所控制系统的世界模型 Every Good Regulator Theorem(简称 EGRT)。翻译成人话就是:任何一个想要在充满风暴和不确定性的外部环境中活下去的自组织系统,不管你是高级哺乳动物,还是没脑子的黏菌,是长在墙角的蘑菇,甚至是一个肉眼看不见的细胞,你都必须在你体内,用一种或另一种方式,把外部环境的映射给编码出来。
为什么?因为你体内的动力学特征,必须和外部的干扰形成精准的信息对应,你才能通过反馈调节(冷了我就抖两下,热了我就流点汗)来维持住自己的结构稳定(体温37度)。
想象一下一个恒温器。它为什么能让房间保持25度?因为它体内有一个“目标温度25度”的模型,还有一个“当前温度计读数”的传感器。它比较两者,决定是开暖气还是开空调。这个简单的逻辑里,就已经隐含了一个最基本的世界模型:它“知道”开了暖气温度会升。当然,这种“知道”是打引号的,不是意识层面的。
但这个例子说明,目的性行为,那些看起来好像是在“为了达成某个目标”而行动的行为,其底层本质可能只是无数个非线性物理动力学反馈圈交织出来的数学必然性。就像一堆沙子会自发地堆成一个圆锥形,不是因为沙粒有“想堆成圆锥”的愿望,而是重力和摩擦力相互作用下的必然结果。同样,一个细胞向营养物质游去,也不是因为细胞“想吃饱”,而是其内部的化学信号网络,在几十亿年的演化打磨下,呈现出了一种“营养物质浓度高时,鞭毛就朝某个方向摆动”的物理规律。
所以,别把世界模型看得太玄乎。它在宇宙中可能是一种非常普遍的现象,只要系统足够复杂,必须要在变化的环境中维持自身秩序,它就必然会涌现出某种内部表征。这就像一个漩涡,它在河流中维持自己的形状,是因为它“记住”了水的流速和旋转的模式。
但是,这里有一个但是。当系统演化出更高阶的能力,也就是第二阶控制论 Second-order Cybernetics 所说的那种状态时,情况就完全不一样了。
什么叫第二阶?就是系统开始用自己内部的模型,去评估和修正调节器自身的表现了。它不再只是简单地比较“目标温度”和“当前温度”,它还会思考“我这个目标温度设得对不对?”“我是不是应该换一种调节方式?”它开始反思自己的模型,调整自己的目标。到了这个地步,那种奇怪的、自己指向自己的循环,那种哥德尔式的、让人既着迷又困惑的奇怪循环 Strange Loop,才算在宇宙中真正点亮。这才是我们通常意义上说的智慧,或者说意识的门槛。
Transformer的一维结构从数学上锁死了AI的长期连贯性
好,既然连细胞都能通过反馈调节来编码世界模型,那为什么用最先进的Transformer架构堆出来的顶级AI,却总是像个金鱼一样,记忆只有七秒,说着说着就忘了前面说了啥?
图论和拓扑约束 Topological Constraints 的最新研究给出了一个很不幸但又很确定的答案。Transformer这种自回归 Autoregressive 的生成模式,就是它一个字一个字往外蹦的这种工作方式,在数学的拓扑学里,被证明是一维的。什么叫一维?想象一条线,或者一条项链。每个珠子只跟它前后的珠子有联系。
在Transformer里,每个新生成的词,它的注意力机制虽然能看到前面所有的词,但信息的流动和结构的组织,本质上还是沿着这条时间线在单向推进。这种结构有个致命的弱点:任何微小的错误,任何一个在早期产生的理解偏差,都会像滚雪球一样,沿着这条一维的链条无限地积累下去。
举个例子。AI在讲一个长故事,第二句话里它把主角的名字记错了一个字母。在一维结构里,这个错误没有别的维度上的邻居来纠正它。后面的所有句子都会基于这个错的名字继续生成,直到最后整个故事逻辑崩盘,角色关系乱成一锅粥。
这就是为什么现在的AI写长文经常写着写着就不知所云了。它没有一个高维的、可以相互监督的结构。真正的生物系统是怎么做的?生物系统是由深度分层、多尺度交织的复杂网络拓扑构建而成的。你的大脑里有几十亿个神经元,它们不是排成一排的,而是织成了一张恐怖的、密密麻麻的立体网络。视觉皮层的一群神经元在判断“这是红色”,同时,记忆中心的另一群神经元在调取“上次看到这个红色是在一个苹果上”,而决策中心的神经元则在整合信息:“既然有苹果,那我是不是应该伸手去拿?”
在这个高维的拓扑网络里,局部的判断错误,比如视觉皮层把橙色看成了红色,很快就会被来自记忆中心或者上下文中心的信号给修正。“不对啊,苹果是红色的,但这个物体在数据库里更匹配橙子啊”。这种分布式、多尺度的互相监督和纠错,构成了生命系统坚固的结构护城河。
这就让生命体即使面对漫长的时间跨度(回忆十年前的事)和广阔的空间变动(从客厅走到卧室),依然能维持住世界模型的长程连贯性。而我们现在引以为傲的Transformer,从数学基础上就是一条线。线的维度只有一,而生命是三维甚至更高维的拓扑网络。想靠堆参数、堆数据来填平这个维度的鸿沟,就好比想用增加铁轨长度的办法,让一列火车飞出地球飞向火星,这根本就不是一个量级的问题。
所以,单靠现在这种一维序列预测的架构,无论参数量再翻多少倍,在数学上都永远不可能自行涌现出具备长期连贯思考能力的超级智能。
碳基大脑活在物理时间里而硅基芯片被锁死在离散囚笼里
除了拓扑网络结构被降维打击,现在的AI系统还有一个更隐蔽、更根本的短板:它感知时间的方式,跟碳基生命完全不是一回事。
人类的大脑不是一台被关在笼子里的电脑。我们的大脑是活的,是浸泡在化学汤里的,是一刻不停地在进行着自发的、有节律的神经活动的。这种内部的自发活动,有一个节律,叫内时间 Inner Time。它不是挂钟上的秒针,而是你心跳的节奏、呼吸的节奏、脑电波Alpha波的震荡。这个内时间,无时无刻不在跟外部世界那连续不断、一直在变化 unfolding 的频率进行着实时对齐和共振。
你听音乐时为什么会随之摇摆?因为你大脑里的震荡频率,跟音乐的节拍锁在一起了。你跟人对话时为什么能丝滑接茬?因为你的神经振荡在预测对方话语结束的时间点。这种身临其境、上下文敏感的 context-sensitive 映射,赋予了生物一种叫默会知识 Tacit Knowledge 的能力。你知道怎么骑自行车,但你说不清楚肌肉是怎么调整的。你知道怎么接住一个飞来的球,但你的大脑没在解微分方程。你的身体,通过它的内时间和物理世界的实时耦合,直接就知道该怎么做了。
反观现在的AI系统。它的训练阶段 Pretraining 和推理阶段 Inference 是被一刀切开的。训练的时候,它吃进去的是海量的、被打包成固定批次的数据,这些数据是离线的、静态的。推理的时候,你给它一个输入,它哗啦哗啦算完,给你一个输出,然后就停了。它没有内部的自发活动,没有内时间。它处理信息的方式,就像你在看一帧一帧的幻灯片。每一帧都是完美的、清晰的、孤立的。但真实的世界不是幻灯片,是电影,是每秒二十四帧、声音气味触感全部混合在一起的连续流。AI在处理信息时,就像一个患了时间闭锁综合征 Temporal Locked-in Syndrome 的病人。他能看见,能思考,但他感知不到时间的流逝。每一次计算都是一个孤立的“现在”,没有过去,也没有未来,只有对一堆静态数据的处理。
没有这种由真实的物理化学耦合带来的自发夹带效应 Entrainment,硅基芯片就永远无法获得真正意义上的具身 Embodiment 认知。具身不是简单地把AI装进一个机器人身体里。具身意味着系统的计算过程不是离散的、非时间的,而是连续的、实时的、与物理世界的动力学过程深度耦合的。
你的每一次思考,都会改变你的激素水平,改变你的心率,改变你下一瞬间的感知,这是一个闭环。而AI的计算过程,输入和输出之间是一个干净的函数,没有副作用,没有生理残留。这道坎,这道区分生命与非生命的最高门槛,不跨过去,说AGI就永远只是科幻。它或许能骗过图灵测试,但它骗不过一个拿着测温枪的人。因为它没有温度,没有时间,没有那个从出生到死亡、在流动的时间中挣扎求存、积累体验、塑造自我的过程。而这,恰恰就是生命心智连续体 Life-mind Continuity 这篇论文最想告诉我们的。
一语道破
整篇论文的假设前提、上文、潜台词其实是基于符号与真实世界两者对比,没有放弃真实世界这个参考。符号不依靠真实世界,依靠自身也能形成智能或意识,只要有自循环、递归就有智能存在。
一个聋子+瞎子 就没有智能、意识吗?他靠自己手脚与外部世界接触,也能感知外部世界存在,你可能说大模型不能感知外部世界存在,这里有存在being的哲学:
康德说:物自体不可知,不是说物自体不存在,物自体可能存在,但是没有被命名,所以不可知道,只要命名了,就进入柏拉图的概念世界,亚里斯多德的形式Form世界,维特根斯坦的语言即世界。
聋子一般是哑巴,因为他虽然感觉到存在,但是只能用自己的哑巴语言表达,如果他不是瞎子,能看到手语,那么手语是他的柏拉图概念世界。
只要存在的客观世界能命名,名可名非常名,进入语言世界,就进入理性世界。进入语言世界,就是大语言模型为王的地盘,人类怎么办?就专注于将存在进行命名,这是探索创新领域。
但是我们很多人是从学习别人概念世界长大的,没有意识到没有命名之前的存在,因此自己身陷语言陷阱而不自知,变成“语言奴隶”,以为自己读遍天下书,就知道世界全部,其实只是知道维特根斯坦说得语言边界内的事情和道理,你用语言讲的道理,只是柏拉图概念世界,类似投影在墙上的图,你并没有走出洞穴,还是洞穴人。
所以,我们不只是基因的奴隶,还是语言奴隶,身体与精神处于双重枷锁中,人生而自由,但是一出生就身处双重奴隶之中。