李飞飞最新长文揭开世界模型真相:空间智能是下一站

世界模型究竟是什么 一文看懂李飞飞眼中的AI下一块大陆:世界模型分类体系详解与空间智能未来

世界模型定义混乱推动整个行业重新梳理底层逻辑

过去几年,人工智能领域有一个词出现频率越来越高,那就是世界模型World Model。很多创业公司在讲世界模型,很多研究机构在讲世界模型,很多机器人团队也在讲世界模型。问题在于,当十个人同时说出这个词的时候,他们脑子里想到的东西往往完全不同。有的人想到视频生成模型,有的人想到机器人控制系统,有的人想到自动驾驶仿真平台,还有的人想到能够推演未来结果的智能体系统。同一个词被塞进太多含义,就像一个行李箱被硬塞进棉被、电冰箱和自行车,最后谁也不知道里面到底装了什么。

这种现象在人工智能发展过程中并不罕见。早期人们讨论人工智能时,很多人以为聊天机器人就是人工智能本身。后来发现聊天只是能力之一。再后来大模型出现,人们又把语言能力和智能本身画上等号。如今世界模型也遇到了类似问题。行业快速增长带来了大量新概念,而概念扩张速度远远快于定义统一速度。结果就是不同团队看似讨论同一个方向,实际却像几群人在不同山头同时喊话。

Fei-Fei Li团队写这篇文章的原因就在这里。他们试图把已经越来越模糊的世界模型重新拆开,把每个功能模块摆在桌面上逐个分析。因为只有先知道发动机、变速箱和方向盘分别负责什么,人们才能真正理解一辆汽车如何工作。对于世界模型来说,重新建立功能分类体系,就是整个讨论继续向前推进的基础。

智能体循环结构揭示世界模型真正来源

为了说明世界模型最初来自哪里,文章没有从大模型时代开始讲,而是直接回到了强化学习Reinforcement Learning领域的经典框架。这个框架有一个看起来像考试重点的名字,叫POMDP,也就是Partially Observable Markov Decision Process,部分可观测马尔可夫决策过程。名字虽然长,但描述的事情其实非常贴近日常生活。

假设一个人在厨房里寻找水杯。他先观察桌面情况,然后伸手移动椅子,再继续观察周围环境,接着走向柜子,打开柜门寻找目标。观察引导动作,动作改变环境,环境变化又产生新的观察。整个过程持续循环。这种循环就是强化学习几十年来研究的核心结构。机器人工作时如此,人类生活时也是如此。

在这个循环中存在四个关键元素。首先是智能体Agent,也就是做决定的人或者机器。其次是动作Action,代表智能体采取的行为。接下来是世界状态State,表示动作造成的真实变化。最后是观察Observation,表示智能体能够看到或者感知到的信息。整个闭环像一座永不停歇的水车,一环推动一环不断向前。理解这个循环之后,世界模型的真正位置就逐渐清晰起来了。

世界状态成为所有智能系统追逐的核心目标

理解循环结构之后,一个最重要的概念开始浮现出来,那就是State,也就是世界状态。很多人第一次看到这个词时容易想到固态、液态和气态,但这里讨论的状态来自物理学和机器人学,它代表某个时刻整个世界的完整描述。房间里的桌椅位置、光线方向、空气流动、物体速度、物体质量以及各种材料属性,全都属于状态的一部分。

最关键的地方在于,任何智能体都无法直接看到完整状态。人类看不到,机器人看不到,摄像头看不到,传感器同样看不到。大家能够获得的只是观察Observation。观察就像透过钥匙孔看房间,你知道里面有些东西,却永远无法获得全部信息。真实世界像一座完整城市,而观察更像城市里的几张街景照片。

这件事直接决定了世界模型的重要性。因为智能体想要做出正确决策,就必须推测那些看不见的部分。人类能够判断一个箱子是否沉重,是因为大脑已经建立了关于重量和外观之间关系的内部模型。机器人如果想做到这一点,也必须拥有类似能力。于是世界模型开始承担一个关键任务,那就是从有限观察中恢复更加完整的世界状态。

渲染器通过像素重建人眼看到的世界

当状态与观察的关系被理清之后,第一类世界模型自然出现了。作者将其称为Renderer,也就是渲染器。渲染器的工作目标非常明确,它负责输出观察结果。换句话说,它负责告诉人类应该看到什么画面。如今最热门的视频生成模型和图像生成模型,大多数都属于这个类别。

假设用户输入一句话,说想看黄昏时分的海边城市。渲染器就会根据训练数据生成对应画面。天空的颜色、建筑物的轮廓、海浪的反光以及街道上的灯光都会出现在结果之中。对于用户来说,画面越逼真越好。渲染器追求的核心指标叫视觉真实性Visual Fidelity,本质上就是让眼睛相信画面是真的。

然而渲染器有一个天然特点,它更关注表面现象。电影布景是一个很形象的例子。镜头里的城堡宏伟壮观,观众看到之后会惊叹不已。但镜头外可能只是木板、钢架和泡沫材料拼接而成。对于渲染器来说,画面可信已经完成任务。至于建筑内部是否具备真实结构,物理规律是否成立,并不属于最重要目标。因此渲染器擅长制造视觉世界,却无法单独承担理解真实世界的责任。

模拟器通过物理规律重建真实世界骨架

渲染器能够生成漂亮画面之后,人们很自然会提出一个问题。如果机器人真的进入画面中的世界,它还能正常行动吗。这个问题直接引出了第二类世界模型,也就是Simulator,模拟器。相比于渲染器输出观察结果,模拟器输出的是世界状态本身,因此要求高出许多。

模拟器必须理解几何结构、材料属性以及物理规律。一个杯子在渲染器眼里可能只是好看的三维外观,而在模拟器眼里则包含尺寸、重量、密度、碰撞边界、重心位置以及表面摩擦系数等大量信息。因为后续系统需要基于这些属性计算真实运动结果。如果这些数据错误,机器人抓取时就会出现各种荒唐情况。

这也是为什么模拟器被广泛应用于建筑设计、工业制造、自动驾驶、数字孪生Digital Twin以及机器人训练。工程师希望提前发现问题,因此需要一个足够接近现实的虚拟环境。这个环境就像飞行员训练使用的模拟舱。飞机撞毁在模拟器里只是一次计算错误,撞毁在现实中则可能意味着巨大损失。正因如此,模拟器逐渐成为连接虚拟世界与现实世界的重要桥梁。

规划器依靠世界理解决定下一步行动

当系统能够观察世界,也能够理解世界结构之后,新的问题随之出现。知道世界是什么,并不等于知道下一步应该做什么。于是第三类世界模型Planner,也就是规划器开始登场。规划器负责根据当前观察以及目标要求,计算最合理的动作方案。

假设机器人需要把桌子上的杯子放进柜子。它首先观察环境,然后判断路径是否畅通,接着决定移动方向和抓取方式,最后完成整个动作链。这里每一步都属于规划过程。规划器相当于大脑中的导航系统,它不断比较当前状态与目标状态之间的差距,然后寻找缩短距离的方法。

近年来出现的Vision-Language-Action模型、World Action Model以及各种机器人智能体,本质上都在尝试解决这个问题。它们希望让机器不仅能够理解世界,还能够在复杂环境中持续采取正确行动。对于机器人产业来说,这部分能力直接决定商业价值。因为能够稳定规划行动的机器人,才有机会真正进入家庭、工厂、仓库以及医院等真实场景。

模拟能力成为连接视觉与行动的关键桥梁

当三类世界模型全部摆在桌面上之后,一个非常有趣的现象开始显现。渲染器负责看见世界,规划器负责改变世界,而模拟器恰好位于两者中间。文章特别强调,模拟能力才是连接视觉理解与实际行动的桥梁。因为几何结构、物理规律和动力学规则同时服务于两个方向。

举个简单例子。如果系统真正理解一个杯子的结构,那么它既能够从任意角度绘制这个杯子的外观,也能够计算杯子被推动之后会滚向哪里,同时还能规划机械手如何稳定抓住它。三个任务表面不同,底层依赖的却是同一份知识。杯子的形状、重量和材料属性既影响视觉呈现,也影响运动规律。

因此作者认为模拟器的重要性远远超过公众关注度。渲染器容易产生惊艳演示视频,规划器容易制造炫酷机器人表演,而模拟器更像地下埋设的钢筋和地基。平时没人关注,但整栋建筑的稳定性都建立在它身上。未来世界模型竞争的真正核心,很可能就隐藏在这里。

数据缺口正在限制世界模型继续成长

然而模拟器的发展速度明显落后于渲染器,其中一个重要原因就是数据问题。互联网拥有海量图片和视频资源,因此训练渲染器相对容易。每天都有无数用户上传照片和视频,这些内容不断扩充训练语料库。对于视觉生成系统来说,数据来源几乎像持续流动的河流。

模拟器面对的情况完全不同。它需要三维几何结构、材料参数、碰撞信息以及动力学数据。这些内容获取成本极高。拍摄一段视频只需要手机,而构建高质量三维场景往往需要专业设备和大量人工标注。很多情况下,一份高精度三维数据集的制作成本甚至超过普通视频数据数千倍。

这导致行业出现明显不平衡。渲染器像坐上高速列车快速前进,而模拟器更像背着沉重背包爬山。与此同时,机器人规划器还需要大量真实操作数据作为训练样本。于是三种能力的发展速度出现差异,而如何解决这种数据供给不均衡问题,也成为统一世界模型面临的重要挑战。

能力融合趋势正在推动统一世界模型出现

虽然三类世界模型起源不同,但作者认为它们最终会逐渐融合。原因非常简单,因为三者依赖的知识基础高度重叠。理解杯子的系统没有必要分别学习三次杯子知识。一次完整理解之后,理论上就能够同时完成渲染、模拟和规划任务。

如今已经出现很多类似迹象。有些研究利用视频生成模型预测未来动作结果,有些系统同时输出视觉场景和物理碰撞网格,还有一些机器人模型尝试将感知、推理和执行统一到同一架构之中。过去存在于不同研究方向之间的边界开始逐渐模糊,就像三条原本分开的河流慢慢汇入同一片海域。

作者认为未来终点可能是Unified World Model,也就是统一世界模型。这样的系统能够根据需求切换输出形式。人类需要画面时,它生成逼真图像。机器人需要决策时,它输出行动方案。仿真平台需要环境时,它提供真实物理结构。所有能力来自同一个底层世界理解框架。

空间智能将成为人工智能发展的下一条主线

文章最后将视角拉回更大的背景。过去几十年,语言模型推动机器掌握了概念、语法和知识表达能力。机器学会描述世界、讨论世界以及分析世界。如今世界模型试图解决另一件事情,那就是让机器真正理解世界本身。

语言像地图,能够告诉人们城市在哪里。世界模型更像亲自走进城市,感受道路、建筑和空间关系。前者解决认知表达问题,后者解决空间理解问题。当机器能够稳定建立世界模型之后,它将拥有观察、想象、推演以及行动能力。机器人、自动驾驶、数字孪生以及虚拟世界构建都会因此获得新的发展基础。

从这个角度看,世界模型并不只是一个新技术名词。它更像连接数字智能与物理世界的一座桥梁。语言模型让机器拥有了讲述世界的能力,而世界模型正在赋予机器理解世界、构建世界以及参与世界的能力。这条路线最终指向的目标,就是Fei-Fei Li团队反复强调的概念——Spatial Intelligence,空间智能。

总结

文章将世界模型拆解为渲染器、模拟器和规划器三大功能模块,并指出模拟器是连接视觉生成与行动决策的核心桥梁。随着三种能力不断融合,统一世界模型将推动空间智能成为人工智能发展的关键方向。

原文标题:A Functional Taxonomy of World Models
作者:Fei-Fei Li 与 World Labs Team
作者单位背景:World Labs,专注空间智能Spatial Intelligence、三维世界理解与世界模型研究的新一代人工智能公司。

极客辣评

原文开头:“世界就是一切事实。” ——路德维希·维特根斯坦, 《逻辑哲学论》 ,1921
感觉他们好像懂维特根斯坦,其实不懂,因为他们认为这里的“事实”就是客观世界的事实,因为他们是老派唯物主义的脑子,这里的“事实”是逻辑世界的“事实”,不一定是客观世界的事实,这两种事实不分,实际不明白为何维特根斯坦的老师罗素为何力捧他,因为维特根斯坦的语言即世界,实际就是逻辑语言即世界,逻辑是数学之母,而不是反过来,虽然,罗素毕生试图证明这个命题,未能成功,这个事实本身也说明,进入语言世界的“事实”都需要逻辑推演和证明。

一个人眼里满眼是桃花,看到丑女也是美丽的,这是三观导致。

那么李飞飞这个世界模型对应到大语言模型中是什么概念?实际就是将语言模型置于实际场景Context中的应用,这就是AI端侧应用,也就是AI应用,李飞飞试图通过统一的世界模型来统一各个场景Context应用,这又犯了从上而下的教条主义,特别是一个领域刚刚开始时,这种误导非常有诱惑,如同工业革命刚刚开始,有人就说,不要做机器奴隶,我们就可以进入统一的物质无限使用的模式。