语言自生成:说话其实无需客观 胡说八道很正常


语言不传递意思,语言做事;语言自己就会往下长;大型语言模型解构了传统的语言意义理论

语言不需要先联系现实世界才能产生新语言。大型语言模型只是证明了这一点:它们只处理符号和符号之间的关系,不看世界,不听声音,不摸东西,却能像人一样说话、回答问题、写文章。

这说明语言内部本身就藏着一套完整的生成结构,可以无限地自己接下去。人脑很可能也是这么干的。我们说话的时候,脑子里并没有先建立一个完整的现实模型再翻译成话。

话本身就是思考的过程。

语言的意义不在于它指向了什么真实的东西,而在于它能带着我们继续生成更多语言、更多画面、更多行动。

那堆谁也看不懂的泥巴符号

考古学家挖出了一批泥板。这些泥板来自一个完全失传的古文明。没有双语对照的文本,没有活着的后代语言,没有任何线索能帮人翻译上面的内容。泥板上只有一行行歪歪扭扭的刻痕,看不出像什么东西。

现在有个人站出来说,他破解了这些符号。他说这些符号不是文字,它们自己就能预测自己。泥板左边出现什么符号,右边很大概率会出现对应的符号。他还真写了个程序,根据左边的符号猜右边的符号,准确率高得离谱。

这个发现确实很厉害。但我们还是会问:那这些符号到底是什么意思呢?

把泥板换成互联网上所有的文字,把那个破解程序换成大型语言模型。古文明换成我们自己的文明。然后那个问题还在:这些符号到底是什么意思?

词语住在高维空间的地址里

大型语言模型的工作方式其实很简单。它把你输入的句子拆成小碎片,这些碎片叫token。它根据前面所有的token,计算下一个最可能出现的token是哪个。算出来以后,把这个新token接到句子后面,再一起喂回去,继续算下一个。一直算到完。

整个过程里,模型对待每个词就像对待泥板上的刻痕一样。它不知道“红”这个颜色长什么样,也没摸过“远”这个距离。它看不见也听不见,更没有一个身体去感受世界。那它知道什么呢?

它只知道“红”这个词跟“橙”“血”“消防车”“生气”“停车标志”这些词挨得近,跟“蓝”“冷”“平静”挨得远。模型给每个词分配了一个高维空间里的地址,这个地址叫嵌入向量。每个地址本身是空的,里面没有存放任何内容。地址的意义完全来自于它和其他地址之间的相对位置。

纯关系,没内容。就这么一堆空地址之间的相对位置,模型就能学会流利地说话。

中间人不见了

我们一般觉得语言是这样工作的:有人跟你说“客厅里有把椅子”,这话传递了一个信息。你的大脑收到这个信息后,会更新自己内部对世界的模型。比如原来你脑子里可能没放椅子,现在放了一把。

后来别人问你“我能坐哪儿?”,你不是去翻那句话本身,而是去查你脑子里那个更新过的模型。模型告诉你客厅有椅子,你就回答“坐客厅”。

语言进来,更新模型或者查询模型,语言出去。这个中间的模型就是意义所在。哲学家管这个叫“接地”:词语要指向词语之外的东西才有意义。

这个想法太自然了,自然到我们根本意识不到自己在这么想。

但大型语言模型把这个中间人给砍了。它不维护任何常规意义上的世界模型。它没有在内部搭一个稳定的场景再把词语贴上去。它不建立关于外部世界的事实。它就是一堆刻痕,预测下一堆刻痕。

用我同事威廉·哈恩的话说:是念头在做思考。

语言自带续写能力

我把这种性质叫作语言的自生成性。语言内部的结构自己就够用了,能推出任何一个可能的后续内容。

关键点在于,模型没有发明这个性质。它只是发现了这个性质。大型语言模型本质上就是语言本身早就有的惊人能力的一个展示窗口。

现在我们知道了语言有这个性质,就很难回避一个结论:人脑使用语言的方式可能也是这样的。不是说大脑就是个大型语言模型。而是说,大脑同样可以利用语言内部现在被我们发现了的这个结构,根据前面词语的预测结构来生成后面词语。

要反驳这一点,就得主张语言这套复杂的自生成结构,能自己生成所有语言的结构,只是大脑某些其他生成过程的意外副产品。奥卡姆要是听见了,脸都得红。更简洁的解释是:大脑也利用了语言的自生成结构,一个token一个token地预测,生成话语。

我们自己的说话行为其实非常符合这个解释。我们经常句子开了头还不知道结尾。我们走上某条语法路径,走不通了再退回来重走。我们有时候被自己正在说的话的逻辑带到了完全没预料到的地方。看起来,在我们身上,可能也是念头在做思考。

接地从来没存在过

如果人类语言也是自生成的方式在运行,那老的指称式意义理论就站不住了,连带着靠它撑起来的很多老难题也跟着没了。

哲学家们早就隐隐觉得不对劲。
维特根斯坦说过,“椅子”没有任何一个定义能恰好圈住所有椅子又排除所有非椅子。
蒯因证明过,任何词语的指称都被行为严重地欠定。
颠倒感受质的问题也说明,两个人可以系统性地拥有完全不同的内在体验,但说的每一个字都完全一样。

大型语言模型没解决这些接地问题。它暗示的是,这些接地从来就不存在。光靠关系结构就够了。

但是那个人真的坐到了椅子上啊

不过,老派指称论的画面没那么容易打发掉。人用的语言和模型用的语言有个表面上的巨大差别。模型只能生成更多语言。人不是。

有人说“客厅里有把椅子”,你不光能根据这句话回答问题。你还能在脑子里想象出椅子放在客厅里的画面。你还能走到客厅,真的坐下去。

这难道不就说明,模型的没接地,人有接地吗?

现在有两派观点:
最小派说模型的语言只是对真人语言的表面模仿,缺了真人语言那种真正的意义。代表人物有艾米丽·本德、诺姆·乔姆斯基、加里·马库斯。
最大派说模型肯定不只是编码词语关系,它一定涌现出了真正的推理能力。代表人物有马克斯·泰格马克、伊利亚·苏茨克维尔。

我觉得两派都错了。

生成可以往外长

人和模型的语言,可能都只是自回归地预测下一个token。最小派和最大派都漏掉了一个关键点:生成过程可以超出语言本身,长到感知、图像,最后长到行为上。

今天AI的另一个大方向,多模态模型,指的就是这个路子。这些模型能根据一段文字描述生成一张逼真的图,也能看一张图给你写一段详细的描述。

这看起来好像在复活指称论的画面。但多模态训练没有在词语和像素之间建立固定的映射。这些模型学的是把图像投影到语言空间里。图像更像是提示,把语言生成过程往某个方向推一把。就像语言模型里没有固定的词到句子的映射一样,图像生成器里也没有固定的词到像素的映射。整个过程极其依赖上下文,极其灵活。

回到刚才的例子。“客厅里有把椅子”这句话在模型里没有固定的后续。在咱们脑子里也没有。如果前面说的是“我得把家具全清空,客厅里有把椅子”,后面接的话跟“我累了,客厅里有把椅子”会很不一样。没有唯一的后续,看情况。

图像生成也一样。如果提示是“一个迷你娃娃屋,客厅里有把椅子”,出来的图跟“一个豪华别墅,客厅里有把椅子”完全是两回事。一句话并不映射到任何特定图像,就像它不映射到任何特定语言后续一样。都看情况。

反过来,一个多模态模型可以看两张完全不同的图,都能回答“客厅里有椅子吗?”这个问题。

语言的魔力在于,我们可以组合出任意条件,然后所有人都能同意这些条件是否被满足。不只是“客厅里有把椅子”,还有“史蒂夫迈阿密顶层公寓客厅里有一把带粉色坐垫和断了一条腿的红色椅子”。

多模态模型展示的是,这种一致同意可以纯粹靠生成来实现,不需要在词语和像素之间建立任何硬性映射。如果生成式的方式足够让人类和模型达成一致,那它也就足够让人类和人类之间达成一致。

语言不传递意思,语言做事

这种一致同意最终让语言成为了人与人之间的协调工具。它让我们能告诉别人世界的条件是什么,或者应该是什么,然后行为就跟上。

这并不意味着语言直接生成肌肉动作,像它生成更多语言或者图像那样。一般来说,我们不为了动而动。我们动是为了达成某个结果,要么改变世界,要么改变我们跟世界的关系。我们走路是为了进房间,伸手是为了拿杯子。运动行为跟感知是连续耦合的,每个动作都被感知实时反馈塑造着:房间进了,杯子拿了。

语言在这个循环里的作用是提供条件。比如“客厅需要一把椅子”,然后行为根据感知确认来满足这个条件,比如“椅子送进客厅了”。

这跟其他动物用行为满足条件没太大区别。鸟把窝搭到它觉得完整为止。捕食者追猎物直到逮住为止。但这些条件高度僵化,要么是本能,要么是挨个学来的。

人类语言把这套流程彻底打开了。我们能在现场生成任意条件,还能就这些条件是否被满足达成一致。而且因为语言是自生成的,条件生条件:“客厅里有把椅子,史黛西正在里面吸尘,她吸尘的时候喜欢房间空着,所以我把椅子搬去厨房吧。”纯粹的语言生产,引出了一个新的行为条件,让行为去满足,让感知去确认。

这种组合能力还能往上长,长成越来越大的“条件”:拿到学位、组建家庭、签订条约。全是靠同一条自生成的链条,把椅子搬进厨房的那个链条。

你不是一个人

这种新的动态接地方式听起来可能有点吓人。它不光解构了传统意义上的语言意义,还解构了那个统一的、感知思考说话行动的自我的概念。

剩下的是平行运作的、互相之间其实不怎么理解的几个过程。一个又瞎又聋的语言系统,一个不会说话的感知系统,一个只管执行简单操作的运动系统。它们各自都不真正理解其他系统在干什么,但莫名其妙地协调在一起,产生了连贯的复杂行为。

这几个过程里,哪个是你?是现在正用视觉扫描这些字的那个,是正用内心声音读这些字的那个,还是最初决定要干这一切的那个?

当然,哪个都不是。你是它们合在一起涌现出来的那个整体。这个整体的各部分协调得太好了,以至于整体根本看不出还有各部分。

但如果你发现自己正在想“我知道我是什么!我是一个统一的、有意识的单一存在”,那就问问自己:这句话到底是谁说的?

总结

本文基于大型语言模型的工作方式,提出语言具有自生成性质,即语言内部的结构足以生成任何后续语言内容。文章论证人类语言可能同样依赖这种预测机制运行,并由此解构传统指称式意义理论,提出语言的意义在于其生成潜力而非指涉外部世界。多模态模型展示了生成过程可以延伸至图像和行为,语言最终作为协调工具在人与人之间运作,而所谓的“自我”只是这些并行生成过程的涌现整体。


原文标题:The Disappearing Ground
作者单位背景:Elan Barenholtz,心理学家,从事认知科学和人工智能交叉领域研究

极客一语道破

人的生命力四种表现:

  1. 食欲
  2. 性欲
  3. 表达欲
  4. 分享欲
前面两个说明你是基因的奴隶;后面两个说明你是语言的奴隶。

合起来:我们都是基因和语言的奴隶。

改变命运的第一件事,说白了,就是你的这个话语系统必须要非常的先进和勇敢,一定要先做一个言语上的巨人。语言边界就是你的世界边界,永远记住,这是一个极高极高的哲学。

语言上巨人,行动上矮子,已经很不错了,因为:语言决定思路,思路决定出路,有了出路,你就不会是行动的矮子。

坐而论道能改变出路,这就是“道”的战略意义