李飞飞最新长文揭开世界模型真相：空间智能是下一站

2026-06-06 1 6K banq

世界模型究竟是什么一文看懂李飞飞眼中的AI下一块大陆：世界模型分类体系详解与空间智能未来

世界模型定义混乱推动整个行业重新梳理底层逻辑

过去几年，人工智能领域有一个词出现频率越来越高，那就是世界模型World Model。很多创业公司在讲世界模型，很多研究机构在讲世界模型，很多机器人团队也在讲世界模型。问题在于，当十个人同时说出这个词的时候，他们脑子里想到的东西往往完全不同。有的人想到视频生成模型，有的人想到机器人控制系统，有的人想到自动驾驶仿真平台，还有的人想到能够推演未来结果的智能体系统。同一个词被塞进太多含义，就像一个行李箱被硬塞进棉被、电冰箱和自行车，最后谁也不知道里面到底装了什么。

这种现象在人工智能发展过程中并不罕见。早期人们讨论人工智能时，很多人以为聊天机器人就是人工智能本身。后来发现聊天只是能力之一。再后来大模型出现，人们又把语言能力和智能本身画上等号。如今世界模型也遇到了类似问题。行业快速增长带来了大量新概念，而概念扩张速度远远快于定义统一速度。结果就是不同团队看似讨论同一个方向，实际却像几群人在不同山头同时喊话。

Fei-Fei Li团队写这篇文章的原因就在这里。他们试图把已经越来越模糊的世界模型重新拆开，把每个功能模块摆在桌面上逐个分析。因为只有先知道发动机、变速箱和方向盘分别负责什么，人们才能真正理解一辆汽车如何工作。对于世界模型来说，重新建立功能分类体系，就是整个讨论继续向前推进的基础。

智能体循环结构揭示世界模型真正来源

为了说明世界模型最初来自哪里，文章没有从大模型时代开始讲，而是直接回到了强化学习Reinforcement Learning领域的经典框架。这个框架有一个看起来像考试重点的名字，叫POMDP，也就是Partially Observable Markov Decision Process，部分可观测马尔可夫决策过程。名字虽然长，但描述的事情其实非常贴近日常生活。

假设一个人在厨房里寻找水杯。他先观察桌面情况，然后伸手移动椅子，再继续观察周围环境，接着走向柜子，打开柜门寻找目标。观察引导动作，动作改变环境，环境变化又产生新的观察。整个过程持续循环。这种循环就是强化学习几十年来研究的核心结构。机器人工作时如此，人类生活时也是如此。

在这个循环中存在四个关键元素。首先是智能体Agent，也就是做决定的人或者机器。其次是动作Action，代表智能体采取的行为。接下来是世界状态State，表示动作造成的真实变化。最后是观察Observation，表示智能体能够看到或者感知到的信息。整个闭环像一座永不停歇的水车，一环推动一环不断向前。理解这个循环之后，世界模型的真正位置就逐渐清晰起来了。

世界状态成为所有智能系统追逐的核心目标

理解循环结构之后，一个最重要的概念开始浮现出来，那就是State，也就是世界状态。很多人第一次看到这个词时容易想到固态、液态和气态，但这里讨论的状态来自物理学和机器人学，它代表某个时刻整个世界的完整描述。房间里的桌椅位置、光线方向、空气流动、物体速度、物体质量以及各种材料属性，全都属于状态的一部分。

最关键的地方在于，任何智能体都无法直接看到完整状态。人类看不到，机器人看不到，摄像头看不到，传感器同样看不到。大家能够获得的只是观察Observation。观察就像透过钥匙孔看房间，你知道里面有些东西，却永远无法获得全部信息。真实世界像一座完整城市，而观察更像城市里的几张街景照片。

这件事直接决定了世界模型的重要性。因为智能体想要做出正确决策，就必须推测那些看不见的部分。人类能够判断一个箱子是否沉重，是因为大脑已经建立了关于重量和外观之间关系的内部模型。机器人如果想做到这一点，也必须拥有类似能力。于是世界模型开始承担一个关键任务，那就是从有限观察中恢复更加完整的世界状态。

渲染器通过像素重建人眼看到的世界

当状态与观察的关系被理清之后，第一类世界模型自然出现了。作者将其称为Renderer，也就是渲染器。渲染器的工作目标非常明确，它负责输出观察结果。换句话说，它负责告诉人类应该看到什么画面。如今最热门的视频生成模型和图像生成模型，大多数都属于这个类别。

假设用户输入一句话，说想看黄昏时分的海边城市。渲染器就会根据训练数据生成对应画面。天空的颜色、建筑物的轮廓、海浪的反光以及街道上的灯光都会出现在结果之中。对于用户来说，画面越逼真越好。渲染器追求的核心指标叫视觉真实性Visual Fidelity，本质上就是让眼睛相信画面是真的。

然而渲染器有一个天然特点，它更关注表面现象。电影布景是一个很形象的例子。镜头里的城堡宏伟壮观，观众看到之后会惊叹不已。但镜头外可能只是木板、钢架和泡沫材料拼接而成。对于渲染器来说，画面可信已经完成任务。至于建筑内部是否具备真实结构，物理规律是否成立，并不属于最重要目标。因此渲染器擅长制造视觉世界，却无法单独承担理解真实世界的责任。

模拟器通过物理规律重建真实世界骨架

渲染器能够生成漂亮画面之后，人们很自然会提出一个问题。如果机器人真的进入画面中的世界，它还能正常行动吗。这个问题直接引出了第二类世界模型，也就是Simulator，模拟器。相比于渲染器输出观察结果，模拟器输出的是世界状态本身，因此要求高出许多。

模拟器必须理解几何结构、材料属性以及物理规律。一个杯子在渲染器眼里可能只是好看的三维外观，而在模拟器眼里则包含尺寸、重量、密度、碰撞边界、重心位置以及表面摩擦系数等大量信息。因为后续系统需要基于这些属性计算真实运动结果。如果这些数据错误，机器人抓取时就会出现各种荒唐情况。

这也是为什么模拟器被广泛应用于建筑设计、工业制造、自动驾驶、数字孪生Digital Twin以及机器人训练。工程师希望提前发现问题，因此需要一个足够接近现实的虚拟环境。这个环境就像飞行员训练使用的模拟舱。飞机撞毁在模拟器里只是一次计算错误，撞毁在现实中则可能意味着巨大损失。正因如此，模拟器逐渐成为连接虚拟世界与现实世界的重要桥梁。

规划器依靠世界理解决定下一步行动

当系统能够观察世界，也能够理解世界结构之后，新的问题随之出现。知道世界是什么，并不等于知道下一步应该做什么。于是第三类世界模型Planner，也就是规划器开始登场。规划器负责根据当前观察以及目标要求，计算最合理的动作方案。

假设机器人需要把桌子上的杯子放进柜子。它首先观察环境，然后判断路径是否畅通，接着决定移动方向和抓取方式，最后完成整个动作链。这里每一步都属于规划过程。规划器相当于大脑中的导航系统，它不断比较当前状态与目标状态之间的差距，然后寻找缩短距离的方法。

近年来出现的Vision-Language-Action模型、World Action Model以及各种机器人智能体，本质上都在尝试解决这个问题。它们希望让机器不仅能够理解世界，还能够在复杂环境中持续采取正确行动。对于机器人产业来说，这部分能力直接决定商业价值。因为能够稳定规划行动的机器人，才有机会真正进入家庭、工厂、仓库以及医院等真实场景。

模拟能力成为连接视觉与行动的关键桥梁

当三类世界模型全部摆在桌面上之后，一个非常有趣的现象开始显现。渲染器负责看见世界，规划器负责改变世界，而模拟器恰好位于两者中间。文章特别强调，模拟能力才是连接视觉理解与实际行动的桥梁。因为几何结构、物理规律和动力学规则同时服务于两个方向。

举个简单例子。如果系统真正理解一个杯子的结构，那么它既能够从任意角度绘制这个杯子的外观，也能够计算杯子被推动之后会滚向哪里，同时还能规划机械手如何稳定抓住它。三个任务表面不同，底层依赖的却是同一份知识。杯子的形状、重量和材料属性既影响视觉呈现，也影响运动规律。

因此作者认为模拟器的重要性远远超过公众关注度。渲染器容易产生惊艳演示视频，规划器容易制造炫酷机器人表演，而模拟器更像地下埋设的钢筋和地基。平时没人关注，但整栋建筑的稳定性都建立在它身上。未来世界模型竞争的真正核心，很可能就隐藏在这里。

数据缺口正在限制世界模型继续成长

然而模拟器的发展速度明显落后于渲染器，其中一个重要原因就是数据问题。互联网拥有海量图片和视频资源，因此训练渲染器相对容易。每天都有无数用户上传照片和视频，这些内容不断扩充训练语料库。对于视觉生成系统来说，数据来源几乎像持续流动的河流。

模拟器面对的情况完全不同。它需要三维几何结构、材料参数、碰撞信息以及动力学数据。这些内容获取成本极高。拍摄一段视频只需要手机，而构建高质量三维场景往往需要专业设备和大量人工标注。很多情况下，一份高精度三维数据集的制作成本甚至超过普通视频数据数千倍。

这导致行业出现明显不平衡。渲染器像坐上高速列车快速前进，而模拟器更像背着沉重背包爬山。与此同时，机器人规划器还需要大量真实操作数据作为训练样本。于是三种能力的发展速度出现差异，而如何解决这种数据供给不均衡问题，也成为统一世界模型面临的重要挑战。

能力融合趋势正在推动统一世界模型出现

虽然三类世界模型起源不同，但作者认为它们最终会逐渐融合。原因非常简单，因为三者依赖的知识基础高度重叠。理解杯子的系统没有必要分别学习三次杯子知识。一次完整理解之后，理论上就能够同时完成渲染、模拟和规划任务。

如今已经出现很多类似迹象。有些研究利用视频生成模型预测未来动作结果，有些系统同时输出视觉场景和物理碰撞网格，还有一些机器人模型尝试将感知、推理和执行统一到同一架构之中。过去存在于不同研究方向之间的边界开始逐渐模糊，就像三条原本分开的河流慢慢汇入同一片海域。

作者认为未来终点可能是Unified World Model，也就是统一世界模型。这样的系统能够根据需求切换输出形式。人类需要画面时，它生成逼真图像。机器人需要决策时，它输出行动方案。仿真平台需要环境时，它提供真实物理结构。所有能力来自同一个底层世界理解框架。

空间智能将成为人工智能发展的下一条主线

文章最后将视角拉回更大的背景。过去几十年，语言模型推动机器掌握了概念、语法和知识表达能力。机器学会描述世界、讨论世界以及分析世界。如今世界模型试图解决另一件事情，那就是让机器真正理解世界本身。

语言像地图，能够告诉人们城市在哪里。世界模型更像亲自走进城市，感受道路、建筑和空间关系。前者解决认知表达问题，后者解决空间理解问题。当机器能够稳定建立世界模型之后，它将拥有观察、想象、推演以及行动能力。机器人、自动驾驶、数字孪生以及虚拟世界构建都会因此获得新的发展基础。

从这个角度看，世界模型并不只是一个新技术名词。它更像连接数字智能与物理世界的一座桥梁。语言模型让机器拥有了讲述世界的能力，而世界模型正在赋予机器理解世界、构建世界以及参与世界的能力。这条路线最终指向的目标，就是Fei-Fei Li团队反复强调的概念——Spatial Intelligence，空间智能。

总结

文章将世界模型拆解为渲染器、模拟器和规划器三大功能模块，并指出模拟器是连接视觉生成与行动决策的核心桥梁。随着三种能力不断融合，统一世界模型将推动空间智能成为人工智能发展的关键方向。

原文标题：A Functional Taxonomy of World Models
作者：Fei-Fei Li 与 World Labs Team
作者单位背景：World Labs，专注空间智能Spatial Intelligence、三维世界理解与世界模型研究的新一代人工智能公司。

极客辣评

原文开头：“世界就是一切事实。” ——路德维希·维特根斯坦，《逻辑哲学论》，1921
感觉他们好像懂维特根斯坦，其实不懂，因为他们认为这里的“事实”就是客观世界的事实，因为他们是老派唯物主义的脑子，这里的“事实”是逻辑世界的“事实”，不一定是客观世界的事实，这两种事实不分，实际不明白为何维特根斯坦的老师罗素为何力捧他，因为维特根斯坦的语言即世界，实际就是逻辑语言即世界，逻辑是数学之母，而不是反过来，虽然，罗素毕生试图证明这个命题，未能成功，这个事实本身也说明，进入语言世界的“事实”都需要逻辑推演和证明。

一个人眼里满眼是桃花，看到丑女也是美丽的，这是三观导致。

那么李飞飞这个世界模型对应到大语言模型中是什么概念？实际就是将语言模型置于实际场景Context中的应用，这就是AI端侧应用，也就是AI应用，李飞飞试图通过统一的世界模型来统一各个场景Context应用，这又犯了从上而下的教条主义，特别是一个领域刚刚开始时，这种误导非常有诱惑，如同工业革命刚刚开始，有人就说，不要做机器奴隶，我们就可以进入统一的物质无限使用的模式。