一、所谓“最优嵌入”?不过是数学假设下的空中楼阁
最近AI圈又炸锅了,杨立昆一篇论文标题写得那叫一个吓人——“我们证明了基础模型的最优嵌入分布”。
光听这口气,是不是觉得人类终于找到了通往通用智能的圣杯?
但冷静下来细读全文,你会发现作者其实在一大堆严格限定条件(Context)下推导出一个理论结果,核心上文前提假设包括:任务空间是固定且已知的、损失函数满足某些强凸性、下游任务分布与预训练数据分布高度对齐等等。
可现实世界哪有这么乖?任务千奇百怪,数据分布漂移如风,用户今天要写诗明天要炒股,后天还要预测铜价,你让我用一个“最优嵌入”搞定所有?
这不叫科学,这叫幻想。
更麻烦的是,社交媒体上一堆人直接把论文标题当结论转发,配上“杨立昆又要颠覆Transformer了”之类的标题党,搞得好像next token prediction马上就要被扫进历史垃圾堆。
可问题是——杨立昆(Yann LeCun)本人确实长期鼓吹一种“完全无监督”的自监督学习范式,比如他力推的JEPA(Joint Embedding Predictive Architecture),声称能通过预测“高层次表征”而非原始像素或token,实现更高效、更通用的智能。
但这种愿景本身,就建立在一个危险的哲学误区上:以为“观察世界”就足以自动导出“行动指南”。 以为王阳明的“知行合一”是很简单的!
二、休谟的铡刀:从“是”永远推不出“应当”
这里必须搬出18世纪哲学家大卫·休谟(David Hume)的著名论断——“你无法从‘是’推出‘应当’”(You can’t derive an ought from an is)。
什么意思?就是说,哪怕你把整个宇宙的数据都喂给模型,让它精确预测下一帧视频、下一个token、下一秒的温度,它依然无法告诉你“该做什么”。
比如,摄像头看到一个人伸手去拿刀,模型可以高精度预测他下一秒的动作轨迹,但模型永远不会知道这是“切菜”还是“行凶”——因为“切菜”与“行凶”的区别,不在于像素变化,而在于意图、伦理、法律这些“应当”层面的价值判断。
这些Context信息根本不存在于原始观测数据中。
试图仅靠无监督学习从混沌感官流中自动提炼出对所有任务都“最优”的嵌入,本质上是在幻想数据本身能告诉你“什么重要、什么不重要”。
但“重要性/权重”从来不是数据的固有属性,而是由目标函数定义的Context解释的。(什么是皮尔士的符号理论?)
没有目标,就没有“相关”;(万物在上下文中发生关系)
没有“相关”,所谓“压缩”就只是随机降维。
杨立昆设想的那种“通用世界模型”,以为只要预测对高层表征,下游任务自然水到渠成,却忽略了:高层表征本身的选择,就已经隐含了任务偏好这个Context。
你选“物体位置+速度”作为latent(潜在隐含上下文),就天然偏向物理推理;
你选“人脸情绪编码”作为latent(潜在隐含上下文),就偏向社交理解。
不存在一个对所有任务都同样“好”的压缩方式。
latent是Context另外一种表述,
“Latent” 这个词在中文里通常翻译为 “潜在的” 或 “隐含的”,而在人工智能、机器学习、特别是深度学习语境中,“latent” 经常和 “representation”(表征)或 “variable”(变量)搭配,变成:
- Latent representation(潜在表征)
- Latent space(潜在空间)
- Latent variable(潜在变量)
想象你看到一段短视频:一个人伸手去拿桌子上的苹果,咬了一口。
原始数据是什么?是几百万个像素点——红的、绿的、亮的、暗的……杂乱无章。如果你让AI直接记住每一帧的每一个像素,那它永远学不会“人类在吃水果”这件事,只会背视频。
但如果你问:这段视频里真正重要的“信息”是什么?
可能是:
- 有个“人”
- 有个“苹果”
- “人”执行了“拿”和“吃”的动作
- “苹果”因此变小了
而模型通过学习,把原始像素压缩成一组数字(比如一个512维的向量),这个向量就代表了对视频的latent representation(潜在表征)。这个向量虽然你看不懂,但它可能编码了“有人在吃苹果”这个高层语义。
再举个例子:你听一首歌,原始数据是一长串声波采样点(每秒几万个数字)。但人脑不会记住每个波形,而是提取出:
- 音调
- 节奏
- 情绪(欢快/悲伤)
- 歌词主题
所以,总结一下:
Latent = 隐藏在原始数据背后、能解释其结构或生成机制的抽象变量或表征。
它不是直接观测到的(比如像素、文字、温度读数),而是模型推断出来的、更有意义的中间表示。
在大模型、自监督学习(比如杨立昆推的 JEPA)、变分自编码器(VAE)、扩散模型等架构中,核心思想都是:不要直接预测原始数据(比如下一个像素),而是预测或重建这些更稳定、更抽象、更因果的 latent 表征,因为这样学习效率更高、泛化能力更强。
比如:
- 下一个 token 是 “apple”,但 latent 可能是 “水果类实体,可食用,红色”
- 下一张图是猫,但 latent 可能是 “四足哺乳动物,瞳孔竖直,有胡须”
latent类似内容的形式特征,内容和形式是万物的两个方面,人们通常只注意事物的内容,对象的内容,但是不聚焦事物对象的形式特征,只根据事物对象内容取名,名可名非常名,却忽视潜在latent的道:道可道非常道!
三、大脑真的在预测像素吗?别傻了,它在预测“因果”
有人反驳说:“你太低估生物智能了!人脑明明不预测像素,而是预测‘有意义’的东西。”这话对,但不全对。
没错,你的眼睛每秒接收上亿像素,但你的视觉皮层不会傻到逐像素建模。它会迅速提炼出“边缘、运动、物体类别”等高层特征。
但关键问题是——这些特征之所以被提炼出来,不是因为它们“客观存在”,而是因为它们在进化长河中被证明“有用”。
但请注意:有用 ≠ 生存直接相关。
比如人类能理解“重力”“动量”“体积”这些物理概念,不是因为祖先需要计算抛物线才能活命,而是因为这些概念是对大量感官经验的高度压缩抽象,能以极少变量解释极大范围的现象。
这种抽象能力,本质上是一种“预测效率优化”——用最少的latent变量,最大化对未来感官状态的预测准确率。
这正是自监督学习(如JEPA)试图模拟的机制:让模型学会预测“下一个latent状态”,而不是“下一个像素”。
从这个角度看,物理定律本身就是人类大脑(或科学共同体)构建的“最优latent预测模型”。
重力不是世界的基本属性,而是我们为了解释“苹果为何下落、月亮为何不掉下来”而发明的一个压缩变量。它成功,是因为它用一个简单公式统一了万千现象。所以,大脑(和好的AI模型)确实在做latent预测,但这个latent空间不是上帝给的,而是任务+数据+归纳偏好等上下文Context共同塑造的。
四、预测与行动的鸿沟:没有目标的预测终将迷失
然而,纯感知的latent预测,和具备行动能力的智能体之间,隔着一道深渊。这正是王阳明感叹“知行合一”难!
当你只是被动观察世界时,你可以追求“最通用”的压缩——比如物理学追求用最少方程解释最多现象。无欲观其妙,无欲的意思是你被动观察,不是主动欲望驱使的,这种情况下,你能用辩证法、一分为二、阴阳太极从场外观察,置身游戏之外看热闹的吃瓜,这时你由于不身处观察对象的上下文场,那么你的看法很可能客观和通用,当局者迷,旁观者轻!
但一旦你要行动,就必须引入偏好:我要拿苹果,不要拿石头;我要避开火,靠近水。
这时候,预测就必须服务于目标。什么意思?你行动就是下场玩游戏了,这时的预测和你前面置身事外预测就不同,身在庐山不识庐山真面貌,这时入场的预测就要以目标为方向驱动!实践是检验真理的唯一标准!
这就是“主动推理”(Active Inference)理论的核心——智能体不仅预测感官输入,还预测“如果我采取某个动作,感官输入会如何变化”,并选择能最小化“预期惊奇”(即预测误差)的动作序列。
但请注意:主动推理依然需要一个先验——你得先定义什么是“惊奇”。先验的意思是当前上下文的上文,有上文、有推理才有下文结果,这称为在上下文中推理!
而这个预先假设的定义,本质上就是目标函数。
没有目标,就没有“好动作”;没有“好动作”,预测就只是旁观。
杨立昆的JEPA类架构,目前仍停留在“被动观察的世界模型”阶段。它已经预设了只要世界模型足够好,下游任务只需微调即可。但现实是,很多任务(如机器人控制、对话策略、投资决策)的成败,高度依赖与环境Context的交互反馈,而不仅仅是静态表征的质量。实际情况破坏了你的美好预设!
你无法仅靠看一万小时做饭视频就学会颠勺——你必须动手,试错,根据“锅没翻”或“菜洒了”的反馈调整动作策略。这种“行动-反馈-修正”闭环,是纯无监督预训练永远无法提供的。
五、混沌世界没有“完美压缩”,只有“任务适配”的妥协
更重要的是,现实世界充满了不可压缩的噪声与混沌。试图让模型预测“所有细节”,只会逼它走向死记硬背。比如,让模型预测视频中每一片树叶的抖动,这种任务既无意义又不可行——微小扰动会导致完全不同的未来状态(蝴蝶效应)。
聪明的做法不是强行预测细节,而是识别出“哪些变量是稳定的、可预测的因果因子”。
但问题来了:哪些变量算“因果”?这又回到了任务依赖。
对气象学家,“气压梯度”是因果;
对园丁,“土壤湿度”是因果;
对诗人,“光影变化”是因果。
这三种Context上下文不同决定了不同的因果!不存在一个放之四海而皆准的“世界本质变量集”。
因此,所谓“最优嵌入”,只能是在特定任务集合下的局部Context最优。
论文作者其实也承认这一点,但标题和宣传口径却制造了“通用最优”的错觉。而杨立昆的更大愿景——用一种无监督预训练统一所有AI——本质上是在追求一个不存在的“上帝视角表征”。历史证明:“上帝视角”最能迷倒一帮粉丝!历史总是反复上演!
进化用了几十亿年,也没给人脑装一个“终极物理引擎”;它只装了一个“够用就好”的预测压缩器,再叠加上千层任务特化的微调模块。
AI的发展路径,恐怕也是如此:基础模型提供通用压缩能力,但真正智能,永远诞生于任务、反馈与目标的三角互动中。
六、结语:警惕“数学乌托邦”,拥抱“工程现实主义”
所以,回到最初那篇论文——它在数学上或许严谨,但被过度神化了。
它没有发现“通用智能的基石”,只是在特定假设下证明了一个优化问题的解。而杨立昆对无监督预训练的宏大叙事,虽有启发性,却低估了“目标”在智能形成中的核心地位。
真正的AI进步,不在于寻找那枚不存在的“万能嵌入”,而在于构建灵活的架构,让模型能在预训练中学会高效压缩,在微调中快速适配目标,在交互中持续优化策略。
数据中心里跑的不是哲学,是代码;
液冷系统冷却的不是梦想,是GPU的焦耳热。
我们这些搞基础设施的,更关心的是:你的模型到底能不能在真实任务上省电、提速、少犯错。别被“最优”“通用”“革命”这些词忽悠了——AI的未来,属于那些既懂理论边界,又脚踩工程泥土的人。