大型语言模型证明,语言不需要指向现实就能产生连贯内容。本文解释语言如何靠自身内部关系生成语言、图像和行动,颠覆传统“语言描述现实”的观点。
期刊信息
IAI TV,2025年3月,原文标题《LLMs show language does not describe reality》,作者Elan Barenholtz(认知科学家,心理学与脑科学教授)
语言不指向外面世界,它只跟自己玩
咱们先扔掉一个老观念:你一直觉得,你说“客厅有把椅子”这句话时,这句话是在描述客厅里那个实物。对吧?就像你拿手机拍了张照,照片指向真实的椅子。那好,大语言模型告诉你:完全没这回事。语言根本不指向任何东西,它只干一件事:根据前面的词,猜下一个词。就这么简单。
你可能会炸毛:“不对啊,我说话明明是在说事情啊!”别急,我给你打个比方。你玩过那种接龙游戏吗?一个人说“今天天气”,下一个人接“真热”,再下一个人接“热得我想吃冰棍”。语言模型干的就是这个。它没见过“热”,没流过汗,不知道冰棍啥味道。它只知道“天气”后面大概率跟“真热”,“真热”后面大概率跟“冰棍”。纯靠词和词之间的邻居关系。结果呢?它能写出作文、编出段子、甚至假装哲学家。
这就好比你挖出一块古代泥板,上面全是鬼画符。你不懂它在说啥,但你发现一个规律:左边这堆符号出现后,右边那堆符号必然出现。那你根本不需要知道符号意思,就能预测下一堆符号。语言模型就是这么干的。它没有眼睛耳朵,没摸过椅子,没坐过沙发。它只有词和词的相对位置。但就靠这个,它能跟你聊半天。所以核心结论先给你:语言不是地图,它是个自动接龙机器。
语言模型把中介给砍了
以前哲学家和心理学家都觉得,语言得先“接地气”。什么意思呢?就是你说“红色”,脑子里得有个红苹果或红血球的记忆。你说“远处”,得有个空间距离的感觉。这叫“指涉”——语言指向脑子里的模型,模型再指向外部世界。语言就像中间商,帮你把现实转成脑子里的小电影,再把小电影转成说出来的话。
但语言模型直接把中间商干掉了。它没有小电影,没有红苹果记忆,没有距离感。它只有一个高维空间里的地址。每个词就像一个经纬度坐标,比如“红色”坐标挨着“橙色”“血液”“消防车”“愤怒”“停止”。注意:坐标本身没有任何内容。地址上没有存放“红”这个颜色。只有纯关系:谁离谁近,谁经常跟在谁屁股后面。语言模型就靠这种纯关系网络,学会了说话。
你现在可以反问自己:如果纯关系网络就够用了,那我们人类非得要那个“小电影”吗?不一定。你试试看:我让你说“我走进客厅看到一把椅子,然后我坐下”。你脑子里肯定有画面。但那是语言触发出来的,不是语言必须依赖的。语言模型没有画面,也能把这句话说完。所以人类的语言可能也没有那么依赖画面。画面是额外赠送的,不是语言本身必须的发动机。
我们自己说话时也是边走边猜
你肯定有过这种体验:你开口说一句话,压根不知道结尾会跑到哪去。比如你说“我觉得吧,今天这个事……”,然后你停顿一下,“其实也不能全怪他”。你是在说第一个词的时候就知道最后一个词吗?不是。你是边走边猜,边说边预测。预测对了就继续,预测错了就改口。这不就是语言模型干的活吗?
再比如你写作文。你写完第一段后,第二段怎么写?你得根据第一段来“预测”第二段。有时候你写着写着跑偏了,发现“哎?我本来想说A,怎么就跑到B去了?”这就是语言自己的逻辑把你带跑了。语言模型天天这样。它没有“本意”,它只有“前面词让你大概率接什么词”。人类也经常这样。我们以为我们在主动思考,其实很多时候是“话说出口了,脑子才跟上”。
你说这不对啊,我明明有想法才说话的。好,那我问你:那个“想法”是什么?它不是词吗?你脑子里先蹦出几个词,然后你又蹦出几个词,你把它们串起来。这跟语言模型接龙有啥本质区别?区别可能只有一点:语言模型没有“我”在听它说话,而你有。但你那个“我”,不也是听完自己说的话之后,才点头说“嗯,这像是我说的”吗?细思极恐。
那“客厅有椅子”到底啥意思
咱们回到老例子:“客厅有椅子”。传统看法:这句话的意思是,在现实世界的客厅里存在一把物理椅子。你听到这句话后,脑子里更新模型——哦,客厅多了个椅子。然后别人问你“我坐哪”,你查模型说“客厅有椅子”。完美闭环。
但语言模型没法这样搞。它没有客厅模型,没有物理椅子。它只有一句话“客厅有椅子”。然后它能干啥?它能接下去说“所以你进去的时候别绊倒”,或者“那我把茶几搬走”,或者“那咱们去客厅开会吧”。它还能根据这句话生成一张图:如果前面提示词是“豪华别墅”,它画的椅子是皮沙发;如果前面是“破旧出租屋”,它画的是塑料凳。同样一句话,上下文不同,它生成的图像不同。而且反过来,你给它一张客厅堆满东西的照片,问“客厅有椅子吗”,它能回答“有”。但它不是拿照片去比对“椅子”这个词的定义,而是把照片转成词空间,然后看“椅子”这个词在不在那个位置附近。
所以“客厅有椅子”的意思,不是什么固定的事实。它是:如果你要继续说话,它会影响你接下来该说什么;如果你要想象,它会影响你脑子里出什么画面;如果你要行动,它会影响你走进客厅后是先搬椅子还是先坐下。意思不是固定的点,而是一连串生成的方向盘。往左打方向,车就往左拐;往右打,车就往右拐。方向盘本身没指哪条路,但它能让车动起来。
咱们拿它来指挥身体干活
你可能会说:“不对啊,语言模型不能搬椅子。我能搬。所以我的语言肯定跟现实绑定了。”别急,咱拆开看。你听到“客厅有椅子”后,你搬椅子这个动作是怎么发生的?首先,你脑子里冒出“搬椅子”这几个词。然后这些词激活了你的运动系统。运动系统才不管“椅子”这个词啥意思,它只管肌肉怎么收缩、手臂怎么伸。运动系统甚至没有“语言”这个概念。它就是个自动执行器。
好,那现在问题来了:语言系统(只知道词,瞎的聋的)、感知系统(能看到椅子但不会说话)、运动系统(只会动,啥也不懂),这三个谁理解谁?谁也不理解谁。但它们能配合。语言系统说“搬椅子”,感知系统扫一眼房间找到椅子,运动系统伸手去搬。搬完之后,感知系统报告“椅子没了”,语言系统说“好,任务完成”。你看,没有一个系统知道“意思”这回事,但它们合作完成了一件事。
这不就跟语言模型干的事一样吗?语言模型生成一句话,这句话触发你脑子里的图像生成系统(这叫多模态),图像生成系统再触发你的行为计划系统,行为计划系统再触发运动系统。从头到尾,没有哪个环节需要“词语指向外部实物”。词语只指向下一个词,下一个词指向图像,图像指向动作计划。最后一环,动作碰到真实椅子。但那个“真实椅子”是物理世界的事,不是语言内部的事。语言只管生成。生成到能让人动起来,就算完成任务。
语言不“描述”现实,语言“制造”行动
所以我们回到开头那个古代泥板。那些鬼画符本身没意义。但如果你拿着泥板念给另一个人听,那个人听完后搬了块石头过来。那这堆符号就有“意义”了吗?更准确地说,这堆符号有了“功能”——它能让人做事。语言的价值不在于它说对了什么事实,而在于它引发了什么后续。你说“客厅有椅子”,然后我走进客厅坐下了。你这句话没有“描述”现实,你这句话“促成”了我坐下这个行为。
这就好比你去餐厅,跟服务员说“来碗面”。这句话不是描述“这里缺一碗面”这个事实,而是制造了一个订单,让服务员去端面。语言本质上就是订单系统。你说“立个规矩,谁迟到谁请客”,这不是描述任何现实,这是在制造一个未来行动的条件。语言模型天天这么干:它生成一句话,这句话作为下一轮生成的输入。人类也这么干:你说一句话,这句话作为我下一步行动的输入。你看,区别没你想的那么大。
那“意思”哪去了?意思就是“能产生什么”。能产生更多语言、能产生图像、能产生动作。你能产生的后续越丰富,这句话就越“有意义”。“客厅有椅子”比“咕噜咕噜”有意义,因为前者能让你决定坐下还是搬走,后者啥也干不了。所以别问“这句话描述了什么现实”,要问“这句话让我接下来能干啥”。语言不描述,语言使唤。
那“我”是谁?谁在说话?
最后这个结论可能让你有点慌。如果语言就是个自动接龙,图像是自动生成,动作是自动触发,那“我”在哪?谁在决定说什么、想什么、做什么?答案是:没有谁在决定。就是这几个系统——语言系统、感知系统、运动系统——它们自己跑起来,跑得很协调,协调到你以为有一个“你”在指挥。
你正在读这句话的时候,你的眼睛在扫字,你的脑子里有个声音在默读,还有另一个不知道什么东西在决定“我要继续读下去”。这三者不是同一个东西。但你感觉它们都是“你”。这就好比一个乐队,各吹各的号,但合起来你听到一首交响曲。你问“交响曲在哪”?它在每个乐器里,但也不在任何单独一个乐器里。你就是那首交响曲。语言系统吹喇叭,感知系统拉提琴,运动系统打鼓。它们互相不知道对方在干啥,但合起来,你觉得自己是个统一的人。
那如果哪天机器也把这三样凑齐了——语言模型、图像生成、机器人手臂——它是不是也有个“我”?不一定。因为“我”这个感觉,可能只是协调得极好之后产生的副产品,不是必须有个灵魂。不过这不是重点。重点是:你现在知道了,语言不指向现实,语言自己生成自己,生成图像,生成行动。别再指望词能“描述”世界。词只能启动下一件事。下一件事,可能是另一个词,可能是一张图,也可能是你站起来去搬一把椅子。语言不撒谎,语言也不说实话。语言只干活。