杨立昆:只有世界模型才是人形机器人通向AGI路径 而非语言模型

杨立昆警告人形机器人公司缺乏通向通用智能的路径,强调必须通过“世界模型”实现对物理世界的理解,而非依赖大语言模型。

最近,Meta首席人工智能科学家杨立昆(Yann LeCun)在麻省理工学院(MIT)的一场演讲中,对当前如火如荼的人形机器人行业泼了一盆冷水。这位图灵奖得主、深度学习先驱毫不客气地指出:绝大多数人形机器人公司“根本不知道”如何让机器人变得真正“通用有用”。他的这番言论不仅直指行业痛点,更引发了学术界与工业界关于AI发展路径的激烈争论。

杨立昆是谁?

他是当今人工智能领域最具影响力的科学家之一。作为卷积神经网络(CNN)的奠基人之一,他的研究成果直接推动了现代计算机视觉和深度学习的爆发。如今,他担任Meta(原Facebook)的首席AI科学家,同时也是纽约大学教授。多年来,他一直对大语言模型(LLM)能否通向人类级智能持怀疑态度,这次对人形机器人行业的批评,正是他长期技术立场的自然延伸。

在MIT的演讲中,杨立昆明确划清了“专用任务”与“通用智能”之间的鸿沟。他说:“我们可以训练机器人完成特定任务,比如在工厂里拧螺丝、搬运零件,但如果你想要一个能在家里帮你做饭、收拾房间、应对各种突发状况的家庭机器人,那还需要AI领域的一系列根本性突破。”他强调,这些突破的核心,是一种他称之为“世界模型”(world model)的新一代AI架构。

那么,什么是“世界模型”?

简单来说,就是让机器像人类一样,通过观察和互动,在大脑中构建一个关于物理世界的内部模型。这个模型能预测“如果我推这个杯子,它会倒;如果地板是湿的,我走路要小心”。这种常识性推理能力,正是当前机器人最缺乏的。

杨立昆指出,现在的AI,尤其是大语言模型,只是在处理“低带宽”的文本数据——它们读过万亿个单词,却从未真正“看”过世界。

他打了个生动的比方:“一个四岁小孩通过视觉接收到的数据量,已经相当于训练最大语言模型所用的全部公开文本数据。”换句话说,人类智能的根基不是文字,而是感官体验,尤其是视觉和动作交互。因此,他认为,仅靠文本训练永远无法达到人类水平的智能。

为了解决这个问题,杨立昆和他的团队正在研发一种名为V-JEPA(视频联合嵌入预测架构)的新型自监督学习系统。这个系统不生成图像或视频,而是学习在抽象空间中预测视频下一帧会发生什么。通过这种方式,AI可以逐步建立起对物理规律、物体属性和因果关系的理解,从而获得“一点点常识”,并具备零样本任务规划能力——也就是说,即使从未见过某个任务,也能靠推理完成。

这一观点直接挑战了当前人形机器人热潮中的主流技术路线。比如Figure AI公司CEO布雷特·阿多克(Brett Adcock)就曾高调宣称,他们的机器人明年就能在从未去过的家庭环境中执行通用任务。有趣的是,阿多克也承认制造不是瓶颈,“人形机器人的竞赛,关键是谁能率先解决通用机器人问题”。但他显然认为这个“解决”已经近在咫尺,而杨立昆则认为还远未到来。

这种分歧很快演变成一场公开交锋。

当Humanoids Daily在X平台(原Twitter)上转发杨立昆的批评时,阿多克直接回怼:“有人该告诉杨立昆,从他的高台上下来,亲手干点实事。”这句话赤裸裸地揭示了学术研究者与产品工程师之间的文化鸿沟:一方追求基础理论的突破,另一方则急于将技术商业化落地。

不过,并非所有人都站在阿多克这边。挪威公司1X Technologies的做法,恰恰印证了杨立昆的思路。这家由OpenAI投资的公司最近发布了自家的“世界模型”——一个可控制动作的模拟器,被他们称为“数据驱动的数字孪生”。通过这个系统,1X可以在虚拟环境中预测机器人动作的结果,快速测试AI策略,而无需反复进行昂贵又耗时的实体实验。

更关键的是,1X的CEO伯恩特·伯尼奇(Bernt Børnich)对现实挑战有着清醒认知。他在播客中坦言:“现实世界真的难到离谱,连Wi-Fi信号不稳定这种小事,都可能比机器人本身更难搞。”这种务实态度,与杨立昆强调“基础突破尚未完成”的警告不谋而合。1X还采用轻量化的肌腱驱动设计,强调安全性,显示出他们并不急于大规模部署,而是专注于构建真正可靠的智能系统。

特斯拉的路径则另辟蹊径。

埃隆·马斯克(Elon Musk)一方面承认人形机器人量产面临“供应链几乎不存在”的制造难题,计划在2026年初推出年产百万台的Optimus V3原型;另一方面,特斯拉AI负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)透露,公司正在开发一个“神经世界模拟器”——一个端到端的系统,利用特斯拉车队收集的海量视频数据进行训练。这个模拟器将直接用于Optimus机器人,被视为对“世界模型”问题的实际回应。

由此可见,尽管各家策略不同,但顶尖玩家其实都在向同一个方向靠拢:从纯文本AI转向基于感官输入的具身智能(embodied intelligence)。

杨立昆的批评,并非否定整个行业,而是提醒大家:硬件可以先行,但没有真正的“世界理解能力”,再酷炫的人形机器人也只是高级玩具。

这场争论的本质,其实是AI发展范式的分水岭。过去几年,大语言模型凭借惊人表现主导了AI叙事,但越来越多专家意识到,仅靠语言无法构建通用智能。真正的智能必须扎根于对物理世界的感知、预测和互动。杨立昆所倡导的“非生成式、自监督、基于视频的世界模型”,或许正是通往这一目标的关键路径。

对投资者和创业者而言,杨立昆的警告值得深思:人形机器人赛道虽热,但真正的护城河不在电机、减速器或外观设计,而在底层AI架构的创新。谁能率先让机器“理解”世界,谁才能笑到最后。否则,即便造出千台万台机器人,也可能只是堆在仓库里的昂贵摆设。

总结来看,这场由杨立昆点燃的讨论,不仅揭示了当前人形机器人行业的技术短板,更重新定义了竞争的核心——不再是“谁先量产”,而是“谁先拥有常识”。在这个意义上,他的“冷水”浇得恰到好处,或许正是行业从狂热走向成熟的开始。