神经网络真的正在收敛为同一个世界模型吗


AI大模型世界观统一神话被挑战:真正收敛的可能只是邻居关系!

很多人以为越大的人工智能模型,脑子里的世界地图会越来越像,最后走向同一个终点。这篇研究重新检查了这个观点,结果发现测量工具本身带着放大镜。模型变宽、变深以后,相似度分数会被自动抬高。校正这些误差后,所谓统一世界模型的证据明显变弱,而不同模型对“谁和谁相似”的局部判断却持续趋同。

啥叫收敛:就是类似“吸引子”的另外一种说法。

研究团队重新检查表征收敛现象

过去几年,一个很流行的观点叫柏拉图表征假说。这个观点认为,无论是语言模型、图像模型还是视频模型,只要规模越来越大,它们最终都会学到同一种现实结构。就像许多登山队从不同山坡出发,最后都走到同一个山顶。这个想法非常吸引人。

因为如果它成立,就意味着不同模型虽然训练目标不同、训练数据不同、网络结构不同,但最终都会发现现实世界里同样的重要规律。很多研究也确实观察到了类似现象。随着模型参数增加,相似度指标不断上升,看起来各种模型正在彼此靠近。

于是人们开始讨论一个大胆的问题:人工智能会不会正在形成某种共同认知框架。但研究团队发现,这件事可能没有表面看起来那么简单。因为你看到的上升趋势,有可能来自模型本身,也有可能来自尺子出了问题。

相似度指标产生测量幻觉

假设现在有两个人。一个身高一米七,一个身高一米八。如果尺子每十厘米自动多加一厘米,那么测量结果一定越来越夸张。此时问题已经不在人体,而在尺子。研究团队发现,许多表征相似度指标也有类似情况。

它们在高维空间工作时,会自动出现一个正向基线。即使两个表示空间完全无关,相似度分数也不会降到零。更离谱的是,当表示维度不断增加时,这个虚假的基线还会持续升高。模型越宽,分数越漂亮,看起来越像,实际上可能什么都没发生。

这就像两个陌生人站在雾里。雾越来越浓以后,反而看起来越来越像亲兄弟。问题不在人身上,而在观察环境发生了变化。这种测量幻觉让研究者误以为模型正在靠近同一个终点,但实际上它们可能站在原地根本没动过。

模型宽度推动虚假一致性增长

研究里把这个问题称作宽度混杂因素。神经网络的隐藏层维度越来越大。从几百维到几千维,再到上万维。很多相似性指标都会受到影响。当维度和样本数量接近时,随机噪声会形成看似存在结构的图案。于是系统开始产生一种错觉。

模型规模越大,世界观越一致。实际上很多增加的相似度只是高维统计效应。有点像买彩票。买一张彩票中奖概率很低。买十万张彩票以后,总会发生一些惊人的巧合。如果只看巧合结果,很容易误以为背后存在神秘力量。其实只是搜索空间变大了。

研究团队通过大量模拟实验发现,在随机数据上也会出现类似增长趋势。这说明问题确实存在。他们把完全随机的矩阵放在一起比较,结果宽度越大,相似度分数照样往上爬。这就像把两堆随机撒的豆子拿来做比较,豆子越多,碰巧重叠的颗粒数就越多,看起来好像两堆豆子有某种默契,其实只是数量带来的错觉。

模型深度放大搜索幸运值

除了宽度之外,还有第二个隐藏陷阱。那就是深度混杂因素。很多论文不会逐层比较模型。因为没人知道哪一层最重要。于是研究者经常采取一种方法。把所有层全部比较。然后挑最高分。看起来很合理。问题是比较次数越多,碰巧找到高分的概率越大。

这和考试很像。一个学生考一次。另一个学生连续考一百次。然后只取最高成绩。最终结果肯定有偏差。研究团队发现,深层模型拥有更多层。层数越多,可比较组合越多。因此最大相似度分数会自然上涨。即使模型之间毫无关系,也会出现高分记录。

这相当于拿一百张飞镖成绩中的最好一张,去和别人单次成绩比较。比较从一开始就不公平。更麻烦的是,这种不公平往往被忽略。很多论文直接把最高相似度当成模型之间真正的关系强度,却忘了问一句:如果我把层数翻倍,最高分会不会自动变高。答案通常是会,而且变高很多。

研究团队建立校准框架

既然尺子出了问题。那就先修尺子。研究团队提出一种置换校准方法。核心思想很简单。把正确对应关系打乱。看看随机情况下会得到什么分数。假设原本图像A对应文本A。图像B对应文本B。现在故意随机打乱对应关系。让图像A对应文本Q。图像B对应文本X。

如果模型之间真的存在深层一致性,那么正确配对应该明显高于随机配对。如果高不了多少。说明原来的高分可能只是统计幻觉。研究团队反复执行这种随机打乱操作。建立一条随机基准线。之后再把真实分数放进去比较。这样就知道哪些相似度真的超出随机水平。哪些只是背景噪声。

这个校准方法的好处在于它不依赖任何假设。不需要猜模型内部结构。不需要假设数据分布。只需要做一件事:把配对关系彻底洗乱,然后看原来那套对应关系到底值多少钱。如果洗乱以后分数照样高,那说明原来的高分根本不值钱。如果洗乱以后分数掉得很惨,那说明原来的高分确实有点东西。

校准过程重新定义零分含义

很多相似度指标有一个奇怪现象。零分不一定代表没有关系。因为随机情况下本身就可能出现正分。于是研究团队重新定义了零点。新的零点不是数学上的零。而是随机世界里的正常水平。只有超出这个阈值。才算真正发现结构。这样做以后,许多原本看起来很壮观的结果开始缩水。

一些过去被当成强证据的趋势。突然变得平平无奇。这不是模型退步了。而是滤镜被摘掉了。你可以想象一个人每天戴着粉色眼镜看世界。看什么都带点粉。突然有一天摘掉眼镜。发现天空其实没那么粉。但天空本身没有变。变的是看天空的方式。

校准以后,相似度分数被重新拉回到一个公平的起点。原来那种随着宽度和深度自动膨胀的效应被清除干净。研究者终于能够看清楚:在没有尺子故障的情况下,不同模型之间的真实关系到底是什么样子。结果让他们自己都有点意外。

校准实验拆除了宽度与深度幻觉

研究团队首先在人工构造的数据上测试。结果非常直接。未经校准时。模型维度越高。相似度分数越高。即使数据完全随机。趋势依然存在。校准以后。这些虚假增长几乎全部消失。分数重新回到接近零的位置。这个结果让宽度混杂因素的原形毕露。

随后他们又测试深度问题。结果同样明显。原来随着层数增加而不断上涨的最大相似度指标。在校准后恢复稳定。这说明过去很多增长曲线。其实部分来自搜索次数增加。并非真正发现了更深层规律。研究团队还尝试了不同随机种子和不同网络初始化,结果完全一致。校准就像一把手术刀,精准切掉了那些因为测量方法不当而长出来的虚胖部分。

更有意思的是,当研究团队把校准后的结果拿给其他研究者看时,对方的第一反应往往是:怎么分数掉这么多。第二反应是:哦,原来以前那些分数有水份。这种反应本身就说明了问题有多普遍。很多人在潜意识里已经习惯了看高分数,低分数反而显得不正常。但正常的分数本来就应该低,尤其是在两个模型之间没有那么像的时候。

全局结构收敛证据开始减弱

最关键的实验来了。研究团队重新分析柏拉图表征假说。他们使用语言模型、视觉模型以及跨模态数据集。流程与过去研究基本一致。唯一变化是加入校准步骤。结果出现巨大反转。过去广泛使用的CKA等全局相似度指标。原本随着模型规模扩大不断上升。校准以后。这种趋势基本消失。

换句话说。如果把宽度和深度带来的额外奖励去掉。不同模型并没有明显朝着同一个整体几何结构收敛。这就像原来大家以为许多河流都流向同一个湖泊。结果重新测量后发现。很多河流只是远远看起来方向相同。实际上并没有真正汇合。有些甚至流向完全不同的方向。只是测量工具之前让它们显得方向一致。

研究团队还发现,不同模型族之间的校准后相似度,往往比同一模型族内部的校准后相似度低得多。这说明所谓的全局收敛,很大程度上发生在同类模型之间,而不是跨类别。比如两个不同尺寸的ResNet之间确实有点像,但ResNet和Transformer之间,校准以后基本看不出什么共同结构。如果所有模型真的在收敛到同一个世界模型,那么跨类别的相似度也应该很高才对。事实并非如此。

局部邻居关系持续表现稳定一致

事情并没有彻底结束。因为另一类指标仍然保持强信号。那就是局部邻域指标。简单说。它们不关心整个地图长什么样。只关心谁挨着谁。例如猫附近通常是老虎。汽车附近通常是卡车。飞机附近通常是直升机。不同模型虽然画出的地图比例尺不同。坐标系不同。距离单位不同。但对于谁应该成为邻居,却越来越一致。

研究团队发现。这种局部邻域重叠现象即使经过严格校准。依然显著存在。而且随着模型能力增强。趋势还会继续增强。这意味着不同模型可能没有形成同一个宇宙地图。却形成了相似的邻里关系网络。这件事其实比全局收敛更值得关注。因为邻居关系往往决定了模型如何处理相似性、如何泛化到新样本、如何做类比推理。

如果你有一只狗和一只狼,模型不需要把它们放在地图的同一个坐标点上。但只要模型认为它们很接近,而猫离它们很远,那么这种邻居关系就已经足够支撑很多下游任务。分类、检索、推荐,这些任务本质上都在利用邻居关系,而不是利用全局坐标。所以局部收敛虽然听起来不如全局收敛那么宏大,但实际应用价值可能更大。

亚里士多德假说替代柏拉图假说

基于这些结果。研究团队提出新的观点。他们把它命名为亚里士多德表征假说。名字来自古希腊哲学家亚里士多德。因为这个新观点更强调关系。而非整体形状。过去的柏拉图版本关注全局结构。仿佛所有模型最终都会长成同一座城市。新的亚里士多德版本关注局部关系。

仿佛不同城市虽然道路布局不同。建筑风格不同。但商场旁边总有停车场。学校旁边总有操场。医院附近总有药店。重要的不是地图完全一样。而是谁与谁存在联系。这种联系正在不同模型之间不断趋同。亚里士多德如果活到今天,可能会说:别关心宇宙的本质是什么样子,先关心事物之间如何关联。

这个命名其实也带着一点调侃。柏拉图追求完美的理念世界,所有现实事物都是理念的影子。而亚里士多德更务实,他觉得事物之间的关系比事物本身的抽象形式更重要。研究团队选这个名字,等于是在说:理想很丰满,但现实更骨感。我们可能永远等不到所有模型共享同一个完美世界模型,但我们可以指望它们对谁是谁的邻居达成共识。

新观点改变理解人工智能方式

这个发现意义很大。因为它告诉人们。未来研究可能不该执着寻找完全统一的表示空间。真正稳定存在的东西。可能是关系结构。模型可以拥有不同几何形状。不同距离尺度。不同内部编码方式。却依然共享同样的邻居网络。这有点像不同语言。中文说苹果。英文说Apple。日文说リンゴ。发音完全不同。文字也不同。但指向的对象关系是一致的。

因此真正重要的信息。也许从来不在坐标值本身。而在关系网络之中。如果你只盯着坐标,你会觉得两个模型天差地别。但如果你盯着邻居关系,你会发现它们惊人地一致。这种视角转换,其实在很多领域都发生过。比如地图导航,不同地图App使用的坐标系和底层数据可能完全不同,但当你问从A点到B点怎么走时,它们给出的路线高度相似。重要的不是地图长什么样,而是路线关系对不对。

研究团队还提醒,这个观点对模型融合、知识迁移和跨模态对齐都有直接启发。如果你想把一个模型的知识搬进另一个模型,与其强行对齐它们的表示空间,不如对齐它们的邻居关系。后者更稳定,更容易实现,而且抗干扰能力更强。因为邻居关系是离散的、结构化的,不像连续坐标那么容易被微小扰动带偏。

总结
这项研究给表征学习领域做了一次体检。过去很多相似度增长来自模型宽度和深度带来的统计幻觉。经过严格校准后,全局收敛证据明显减弱,而局部邻居关系持续存在。不同模型未必会长成同一个世界地图,却越来越认可谁应该成为彼此的邻居。

原文期刊
arXiv 预印本

发表日期
2026年2月16日

原文标题
Revisiting the Platonic Representation Hypothesis: An Aristotelian View

作者单位背景
EPFL瑞士洛桑联邦理工学院、University of Basel瑞士巴塞尔大学、HSLU瑞士卢塞恩应用科学与艺术大学。研究方向覆盖机器学习、表征学习、生物信息学与跨模态人工智能。