语言模型揭穿最大谎言：语言不需要指向现实就能产生连贯内容

2026-05-19 1 4K banq

大型语言模型证明，语言不需要指向现实就能产生连贯内容。本文解释语言如何靠自身内部关系生成语言、图像和行动，颠覆传统“语言描述现实”的观点。

期刊信息
IAI TV，2025年3月，原文标题《LLMs show language does not describe reality》，作者Elan Barenholtz（认知科学家，心理学与脑科学教授）

语言不指向外面世界，它只跟自己玩

咱们先扔掉一个老观念：你一直觉得，你说“客厅有把椅子”这句话时，这句话是在描述客厅里那个实物。对吧？就像你拿手机拍了张照，照片指向真实的椅子。那好，大语言模型告诉你：完全没这回事。语言根本不指向任何东西，它只干一件事：根据前面的词，猜下一个词。就这么简单。

你可能会炸毛：“不对啊，我说话明明是在说事情啊！”别急，我给你打个比方。你玩过那种接龙游戏吗？一个人说“今天天气”，下一个人接“真热”，再下一个人接“热得我想吃冰棍”。语言模型干的就是这个。它没见过“热”，没流过汗，不知道冰棍啥味道。它只知道“天气”后面大概率跟“真热”，“真热”后面大概率跟“冰棍”。纯靠词和词之间的邻居关系。结果呢？它能写出作文、编出段子、甚至假装哲学家。

这就好比你挖出一块古代泥板，上面全是鬼画符。你不懂它在说啥，但你发现一个规律：左边这堆符号出现后，右边那堆符号必然出现。那你根本不需要知道符号意思，就能预测下一堆符号。语言模型就是这么干的。它没有眼睛耳朵，没摸过椅子，没坐过沙发。它只有词和词的相对位置。但就靠这个，它能跟你聊半天。所以核心结论先给你：语言不是地图，它是个自动接龙机器。

语言模型把中介给砍了

以前哲学家和心理学家都觉得，语言得先“接地气”。什么意思呢？就是你说“红色”，脑子里得有个红苹果或红血球的记忆。你说“远处”，得有个空间距离的感觉。这叫“指涉”——语言指向脑子里的模型，模型再指向外部世界。语言就像中间商，帮你把现实转成脑子里的小电影，再把小电影转成说出来的话。

但语言模型直接把中间商干掉了。它没有小电影，没有红苹果记忆，没有距离感。它只有一个高维空间里的地址。每个词就像一个经纬度坐标，比如“红色”坐标挨着“橙色”“血液”“消防车”“愤怒”“停止”。注意：坐标本身没有任何内容。地址上没有存放“红”这个颜色。只有纯关系：谁离谁近，谁经常跟在谁屁股后面。语言模型就靠这种纯关系网络，学会了说话。

你现在可以反问自己：如果纯关系网络就够用了，那我们人类非得要那个“小电影”吗？不一定。你试试看：我让你说“我走进客厅看到一把椅子，然后我坐下”。你脑子里肯定有画面。但那是语言触发出来的，不是语言必须依赖的。语言模型没有画面，也能把这句话说完。所以人类的语言可能也没有那么依赖画面。画面是额外赠送的，不是语言本身必须的发动机。

我们自己说话时也是边走边猜

你肯定有过这种体验：你开口说一句话，压根不知道结尾会跑到哪去。比如你说“我觉得吧，今天这个事……”，然后你停顿一下，“其实也不能全怪他”。你是在说第一个词的时候就知道最后一个词吗？不是。你是边走边猜，边说边预测。预测对了就继续，预测错了就改口。这不就是语言模型干的活吗？

再比如你写作文。你写完第一段后，第二段怎么写？你得根据第一段来“预测”第二段。有时候你写着写着跑偏了，发现“哎？我本来想说A，怎么就跑到B去了？”这就是语言自己的逻辑把你带跑了。语言模型天天这样。它没有“本意”，它只有“前面词让你大概率接什么词”。人类也经常这样。我们以为我们在主动思考，其实很多时候是“话说出口了，脑子才跟上”。

你说这不对啊，我明明有想法才说话的。好，那我问你：那个“想法”是什么？它不是词吗？你脑子里先蹦出几个词，然后你又蹦出几个词，你把它们串起来。这跟语言模型接龙有啥本质区别？区别可能只有一点：语言模型没有“我”在听它说话，而你有。但你那个“我”，不也是听完自己说的话之后，才点头说“嗯，这像是我说的”吗？细思极恐。

那“客厅有椅子”到底啥意思

咱们回到老例子：“客厅有椅子”。传统看法：这句话的意思是，在现实世界的客厅里存在一把物理椅子。你听到这句话后，脑子里更新模型——哦，客厅多了个椅子。然后别人问你“我坐哪”，你查模型说“客厅有椅子”。完美闭环。

但语言模型没法这样搞。它没有客厅模型，没有物理椅子。它只有一句话“客厅有椅子”。然后它能干啥？它能接下去说“所以你进去的时候别绊倒”，或者“那我把茶几搬走”，或者“那咱们去客厅开会吧”。它还能根据这句话生成一张图：如果前面提示词是“豪华别墅”，它画的椅子是皮沙发；如果前面是“破旧出租屋”，它画的是塑料凳。同样一句话，上下文不同，它生成的图像不同。而且反过来，你给它一张客厅堆满东西的照片，问“客厅有椅子吗”，它能回答“有”。但它不是拿照片去比对“椅子”这个词的定义，而是把照片转成词空间，然后看“椅子”这个词在不在那个位置附近。

所以“客厅有椅子”的意思，不是什么固定的事实。它是：如果你要继续说话，它会影响你接下来该说什么；如果你要想象，它会影响你脑子里出什么画面；如果你要行动，它会影响你走进客厅后是先搬椅子还是先坐下。意思不是固定的点，而是一连串生成的方向盘。往左打方向，车就往左拐；往右打，车就往右拐。方向盘本身没指哪条路，但它能让车动起来。

咱们拿它来指挥身体干活

你可能会说：“不对啊，语言模型不能搬椅子。我能搬。所以我的语言肯定跟现实绑定了。”别急，咱拆开看。你听到“客厅有椅子”后，你搬椅子这个动作是怎么发生的？首先，你脑子里冒出“搬椅子”这几个词。然后这些词激活了你的运动系统。运动系统才不管“椅子”这个词啥意思，它只管肌肉怎么收缩、手臂怎么伸。运动系统甚至没有“语言”这个概念。它就是个自动执行器。

好，那现在问题来了：语言系统（只知道词，瞎的聋的）、感知系统（能看到椅子但不会说话）、运动系统（只会动，啥也不懂），这三个谁理解谁？谁也不理解谁。但它们能配合。语言系统说“搬椅子”，感知系统扫一眼房间找到椅子，运动系统伸手去搬。搬完之后，感知系统报告“椅子没了”，语言系统说“好，任务完成”。你看，没有一个系统知道“意思”这回事，但它们合作完成了一件事。

这不就跟语言模型干的事一样吗？语言模型生成一句话，这句话触发你脑子里的图像生成系统（这叫多模态），图像生成系统再触发你的行为计划系统，行为计划系统再触发运动系统。从头到尾，没有哪个环节需要“词语指向外部实物”。词语只指向下一个词，下一个词指向图像，图像指向动作计划。最后一环，动作碰到真实椅子。但那个“真实椅子”是物理世界的事，不是语言内部的事。语言只管生成。生成到能让人动起来，就算完成任务。

语言不“描述”现实，语言“制造”行动

所以我们回到开头那个古代泥板。那些鬼画符本身没意义。但如果你拿着泥板念给另一个人听，那个人听完后搬了块石头过来。那这堆符号就有“意义”了吗？更准确地说，这堆符号有了“功能”——它能让人做事。语言的价值不在于它说对了什么事实，而在于它引发了什么后续。你说“客厅有椅子”，然后我走进客厅坐下了。你这句话没有“描述”现实，你这句话“促成”了我坐下这个行为。

这就好比你去餐厅，跟服务员说“来碗面”。这句话不是描述“这里缺一碗面”这个事实，而是制造了一个订单，让服务员去端面。语言本质上就是订单系统。你说“立个规矩，谁迟到谁请客”，这不是描述任何现实，这是在制造一个未来行动的条件。语言模型天天这么干：它生成一句话，这句话作为下一轮生成的输入。人类也这么干：你说一句话，这句话作为我下一步行动的输入。你看，区别没你想的那么大。

那“意思”哪去了？意思就是“能产生什么”。能产生更多语言、能产生图像、能产生动作。你能产生的后续越丰富，这句话就越“有意义”。“客厅有椅子”比“咕噜咕噜”有意义，因为前者能让你决定坐下还是搬走，后者啥也干不了。所以别问“这句话描述了什么现实”，要问“这句话让我接下来能干啥”。语言不描述，语言使唤。

那“我”是谁？谁在说话？

最后这个结论可能让你有点慌。如果语言就是个自动接龙，图像是自动生成，动作是自动触发，那“我”在哪？谁在决定说什么、想什么、做什么？答案是：没有谁在决定。就是这几个系统——语言系统、感知系统、运动系统——它们自己跑起来，跑得很协调，协调到你以为有一个“你”在指挥。

你正在读这句话的时候，你的眼睛在扫字，你的脑子里有个声音在默读，还有另一个不知道什么东西在决定“我要继续读下去”。这三者不是同一个东西。但你感觉它们都是“你”。这就好比一个乐队，各吹各的号，但合起来你听到一首交响曲。你问“交响曲在哪”？它在每个乐器里，但也不在任何单独一个乐器里。你就是那首交响曲。语言系统吹喇叭，感知系统拉提琴，运动系统打鼓。它们互相不知道对方在干啥，但合起来，你觉得自己是个统一的人。

那如果哪天机器也把这三样凑齐了——语言模型、图像生成、机器人手臂——它是不是也有个“我”？不一定。因为“我”这个感觉，可能只是协调得极好之后产生的副产品，不是必须有个灵魂。不过这不是重点。重点是：你现在知道了，语言不指向现实，语言自己生成自己，生成图像，生成行动。别再指望词能“描述”世界。词只能启动下一件事。下一件事，可能是另一个词，可能是一张图，也可能是你站起来去搬一把椅子。语言不撒谎，语言也不说实话。语言只干活。