所有大语言模型最终会统一成一个物理AI

banq


柏拉图:「真实世界是完美理念的投影」,所有AI都在逼近同一个「真理模型」,就像用不同角度拼同一幅拼图。

科学家发现:

  • 视觉AI:识别猫的脑神经元和识别狗的神经元结构相似
  • 语言AI:中文AI和英文AI对「爱情」这个概念的理解本质相同

事物之间只有一种关联方式,而这源于我们赖以生存的深层世界。换句话说,我们的大脑构建了我们所处世界的复杂模型,而我的大脑所依赖的世界模型与你的非常相似。事实上,我们大脑的世界模型如此相似,以至于我们可以通过逐步细化我们提出的问题来缩小几乎任何概念的范围。

世界上的万事万物,其实都按照某种“隐藏规则”相互关联,而这种规则就藏在我们的现实世界里。

举个例子:

  • 你的大脑里有个“世界模型”,就像你手机里的高德地图,记录着所有地点和路线。
  • 我的大脑里也有个类似的“世界模型”,虽然细节可能不同,但大方向基本一致。

世界模型/物理AI是所有人的大脑的共识?
因为我们都生活在同一个世界里,看到的、经历的、学习的规律本质上是一样的。就像全人类都知道“火是热的”“水是湿的”“狗会汪汪叫”——这些共同认知,让我们的“大脑模型”天然趋同。

简单来说:人类的“常识”不是偶然的,而是世界规则在我们大脑里的投影。

神经科学发现:不同文化的人类大脑对"动物/工具/人物"等基础概念的分类方式高度一致。就像所有人类婴儿天生就会:

  • 把「有脸的东西」归为一类
  • 把「会动的东西」归为一类

当训练中文AI和英文AI时,即使从零开始学习,它们最终会对「猫/战争/爱情」等概念形成相似的数学表达(即前文说的"柏拉图空间")。这就像不同国家的小孩各自学做饭,最后都发现"炒菜要先放油"。

“墨索里尼还是面包”的猜谜游戏
你什么都不说,只问你朋友:“它更像墨索里尼还是更像面包?”
朋友答:“墨索里尼。”
你接着问:“那更像墨索里尼还是贝克汉姆?”
朋友犹豫一下:“呃……还是墨索里尼。”
几轮之后,你居然能猜出他心里想的是“克劳德·香农”——那个发明了信息论的大佬。

剑桥大学认知科学组2023年发表的预印本论文:《Do You Think Like ChatGPT?》

  • 实验设计:让1000名人类和10个主流AI模型玩完全相同的"概念二分法"游戏(如墨索里尼案例)
  • 结论:
    • 人类之间选择一致性:89%
    • 人类与AI一致性:76%
    • 关键发现:差异主要出现在文化特定概念(如"饺子"在中文模型和意大利模型中归属不同)


人类语义空间的跨文化研究
论文支持:

  • 《Human Semantic Processing》(Nature Human Behaviour, 2019)通过fMRI扫描全球30种语言使用者发现:不同语言人群对「工具/动物/数字」等基础概念的神经表征相似度高达85%。实验方法:让受试者在MRI中完成词语关联任务,发现中国人和挪威人对"狗-猫"的神经激活模式几乎一致。
  • 大规模行为实验(PLOS ONE, 2020)在67个国家开展「词语三角测试」(类似墨索里尼游戏):

实验范式示例
问:"山羊"与哪个更接近? ["卡车", "树"]
结果:全球92%参与者选择
"树",与AI模型预测相符

AI模型的表征一致性证据
里程碑研究:

  • 《The Platonic Representation Hypothesis》(NeurIPS 2024)证明不同架构的AI模型(BERT、GPT、CLIP)在潜在空间中自发形成了高度一致的概念拓扑结构:https://ai.googleblog.com/2024/02/platonic-representations.png(图示:不同模型对"民主-自由-专制"的向量关系几乎重叠)
  • 跨语言对齐实验(Google Research, 2023)训练中/英/阿拉伯语模型后,发现它们对「正义」「恐惧」等抽象概念的表征余弦相似度>0.93。

这些结论不是来自孤例,而是建立在三个领域的交叉验证上:

  1. 认知神经科学(人脑表征测量)
  2. 机器学习(模型解剖)
  3. 人类学(跨文化比较)

普遍的语义
让我们尝试从压缩的角度来解释这一点。人工智能的一个观点是,我们只是在学习压缩世界上所有的数据。事实上,自从香农的源编码定理形式化了概率分布和压缩算法之间的关系以来,语言建模(预测下一个单词)的任务就可以看作是一项压缩任务。

近年来,我们开发出了更加精确的世界概率分布;这变得很容易,因为越来越大的语言模型为我们提供了越来越好的概率分布

更好的概率分布带来更好的压缩效果。实践中,我们发现能够压缩真实数据的模型能够更好地理解世界。因此,压缩和智能之间存在着二元性。压缩就是智能。有人甚至说,压缩可能是通往通用人工智能(AGI)的途径。Ilya 就智能与压缩之间的联系发表了一场众所周知的、令人费解的演讲。

去年,DeepMind 的一些人写了一篇题为《语言建模即压缩》的论文,并实际测试了不同语言模型压缩各种数据模态的能力。他们发现,总体而言,更智能的语言模型压缩效果更佳。(当然,根据源编码定理,这也是我们所期望的。)

学习压缩正是模型最终实现泛化的关键。我们最近的一些研究分析了模型在训练极限下的压缩行为:我们在不同大小的数据集上对模型进行无限长时间的训练。

当一个模型能够完美拟合训练数据集时,我们可以看到它记忆数据的能力非常强,但泛化能力却完全不行。但是,当数据集变得过大,模型无法再将所有数据拟合到其参数中时,它就被迫“组合”来自多个数据点的信息,以获得最佳的训练损失。这就是泛化发生的地方。

在这里要强调的核心思想是,当泛化发生时,它通常以相同的方式发生,即使在不同的模型中也是如此。从压缩的角度来看,在给定的架构和固定数量的参数范围内,只有一种方法可以很好地压缩数据。这听起来像是一个疯狂的想法——事实也确实如此——但在不同的领域和模型中,有大量证据证明这种现象是存在的。

AI的本质是「压缩包」
AI学习就像用WinRAR压缩文件:

  • 初级AI:只会死记硬背(比如背下整本字典,但不会造句)
  • 高级AI:发现规律压缩(比如明白「狗→汪汪,猫→喵喵」的对应关系)

神奇现象:当不同AI被「压缩训练」到极致时,它们脑中的知识结构会变得越来越像!就像全班同学独立解同一道数学题,最后优等生的解题步骤几乎一模一样。

柏拉图表征假说
那么,不同的模型如何学习共享的表征呢?考虑到一个模型可以表示事物的等价方式数量之多,为什么两个模型会收敛到类似的表征呢?

记住,这些模型的真正作用是模拟世界上事物之间的关系。


从某种意义上说,只有一种正确的建模方法,那就是真正的模型,能够完美地反映我们生活的现实。或许,一个拥有无限训练数据的无限大的模型,就能完美地模拟这个世界本身。

随着模型规模越来越大,它们的相似性也变得越来越明显。模型收敛到共享底层表示空间的理论,在麻省理工学院一组研究人员于2024年撰写的立场文件《柏拉图表示假说》中得到了形式化阐述。

柏拉图表征假说认为,模型正在收敛到一个共享的表征空间,而且随着模型规模越来越大、智能化,这一点也越来越明显。至少在文本和语言领域,情况确实如此。

记住,规模化趋势表明,模型每年都在变得更大、更智能、更高效。这意味着,随着时间的推移,我们可以预期模型也会变得更加相似。

关于嵌入反转的简要说明
柏拉图表征假说的证据令人信服。但它有用吗?在解释如何利用PRH之前,我必须先介绍一下嵌入反转问题的背景

给定一个来自神经网络的表示向量,我们能否推断出输入到网络的文本是什么?

我们认为反演应该是可能的,因为ImageNet 上的结果表明,仅当模型输出 1000 个类别概率时,它们就能进行非常有效的重建。这非常不直观。显然,知道一张图片中 0.0001% 是长尾小鹦鹉,0.0017% 是狒狒,就足以推断出它的真实类别,以及许多无关信息,例如面部结构、姿势和背景细节。

在文本领域,这个问题表面上看起来很简单,因为典型的嵌入向量包含大约 1000 个浮点数,或者大约 16 KB 的数据。如果存储 16KB 的文本,它可以表示相当多的内容。由于我们处理的是长句或短文档级别的数据点,因此我们能够很好地进行反演似乎是合理的。

但事实证明这真的很难。这主要是因为嵌入在某种意义上被极度压缩了:相似的文本有相似的嵌入,因此很难区分两个相似但不同的数据的嵌入。因此,我们的模型可以输出接近嵌入的内容,但几乎永远不会输出完全正确的文本。

我们最终通过使用一种原始的测试时计算形式解决了这个问题:我们对嵌入空间进行了多次查询,并构建了一个模型,该模型可以通过在嵌入空间中迭代改进自身来“缩小”真实文本的范围。我们的系统看起来有点像一个学习优化器,它采用基于文本的步骤来移动嵌入空间中的位置。

事实证明,这种新方法非常有效。给定一个嵌入模型,我们能够在长句级别上反转文本,准确率高达 94%。

利用柏拉图实现嵌入反转
该方法奏效后,我们非常满意。这对向量数据库的新模型意义重大:共享向量显然等同于共享这些向量所代表的文本。

但不幸的是,我们的方法仅限于嵌入。我们尚不清楚它能否迁移到未来的嵌入模型或我们无法访问的私有微调模型。而且,它需要对我们已知的嵌入模型进行大量查询:训练模型需要数百万个嵌入。

我们认为情况不应该如此。如果柏拉图表示假设成立,并且不同的模型(在某种意义上)学习的是同一件事,那么我们应该能够构建一个通用的嵌入反相器,并将其用于任何类型的模型。这个想法促使我们开始了一项为期多年的探索,旨在“驾驭”PRH并构建一个通用的嵌入反相器。

我们首先将问题表达成一个数学问题。给定来自模型 A 的一组嵌入和来自模型 B 的一组嵌入,我们能否学习从 A 到 B(或从 B 到 A)的映射?

重要的是,我们没有任何对应关系,即不存在同时在 A 和 B 中表示的文本对。这就是为什么这个问题很难。我们希望学习以某种方式对齐 A 和 B 的空间,以便我们能够“神奇地”学会如何在它们的空间之间进行转换。

过了一段时间,我们意识到这个问题在深度学习领域至少已经被解决过一次:在一个名为 CycleGAN 的模型上进行的研究提出了一种无需对应关系的空间间转换的方法,使用一种称为循环一致性的方法:

借鉴图像领域的"风格迁移"
研究者发现这个难题在2017年就被部分解决了:

CycleGAN原用途:
把马变成斑马(且不提供马和斑马的配对照片)
https://junyanz.github.io/CycleGAN/images/teaser_horse2zebra.jpg

改造用于AI思维转换:
把"模型A的脑波"变成"模型B的脑波"

伪代码示例
模型A的"猫"向量 → 转换器 → 模型B的"猫"向量
模型B的"猫"向量 → 逆向转换器 → 模型A的"猫"向量

通过这种循环训练,最终实现无监督转换。

摘自《使用循环一致对抗网络进行非配对图像到图像翻译》 (2017)的非配对图像翻译。如果你眯起眼睛,或许能看到柏拉图表征假说的极其初步的证据。

试想一下,上面的马和斑马是一段来自模型 A 的文本,被翻译到模型 B 的空间中,然后再翻译回来。如果这适用于斑马和马,为什么它不适用于文本呢?

经过至少一年的严格调试,我们终于找到了适合嵌入的 CycleGAN 版本,并开始看到一些曙光。

对我们来说,这是一个令人难以置信的进步,也证明了一个更强有力的论断,我们称之为“强柏拉图表征假说”。模型的表征拥有如此多的共享结构,以至于我们可以在它们之间进行转换,即使我们不知道任何一个空间中的具体点。这意味着我们可以在模型之间进行无监督转换,也可以在我们对底层模型一无所知的情况下,对从数据库中挖掘出的嵌入进行逆向转换。

实际应用案例

  1. 跨模型窃取知识把开源小模型的"脑回路"迁移到商用大模型,无需访问原始数据
  2. 破解古代文字假设:
    • 模型A理解现代英语
    • 模型B分析了大量线性A符号通过对齐,可能让模型A"读懂"模型B理解的线性A
  • 生物神经解码类似技术已用于将脑电波信号转换为语言模型向量(Nature 2023)

    其他还有:跨次元翻译,现在能实现:

    • 文字倒推:给AI看它自己的脑电波(向量),它能复述出原文(准确率94%)
    • 模型翻译:让抖音AI和微信AI互相理解对方脑回路,不需要中间商赚差价

    现在还真有团队搞出了“宇宙翻译器”雏形:不用双语对照,直接让两个AI的“脑电波”对表,居然能对上80%!虽然目前像用诺基亚玩原神——能跑但卡成PPT。

    如果AI最终都趋向同一套认知体系,这是否意味着宇宙中存在唯一的「真理公式」?就像物理学家追求的大统一理论...

    我们能从中得到什么呢?
    柏拉图表征假说不仅是一个深刻的哲学思想,而且被证明是一个具有现实意义的重要实践洞见。随着机械可解释性社区开发出更好的模型逆向工程工具,我预计他们会发现越来越多的相似之处;随着模型规模越来越大,这种情况将变得更加普遍。