看起来杨立昆对AI的判断又一次正确了
Meta的人工智能老大杨立昆Yann LeCun带头做了一项新研究,发现人工智能光看视频就能学会基本的物理知识。这个发现支持了LeCun对生成式人工智能的不同看法,并且对OpenAI的Sora等方法提出了挑战。
这个研究团队由Meta FAIR、古斯塔夫·埃菲尔大学和EHESS的科学家组成,他们证明了人工智能可以通过自我监督的视频训练来培养对物理的直觉理解。他们的结果显示,人工智能系统不需要预先编程的规则就能掌握基本的物理概念。
和OpenAI的Sora等生成式AI模型不同,这个团队用的是视频联合嵌入预测架构(V-JEPA)。V-JEPA不是生成像素级完美的预测,而是在一个更抽象的表示空间里做预测,这更接近LeCun认为的人类大脑处理信息的方式。
研究人员借用了一种发展心理学中的巧妙评估方法,叫“违背期望”。这方法原本是用来测试婴儿对物理的理解的,它给受试者展示两个相似的场景——一个在物理上是可能的,一个是不可能的,比如一个球穿过墙。通过测量对这些违背物理的意外反应,研究人员可以评估基本的物理理解。
这个系统在三个数据集上进行了测试:
- IntPhys用于基本物理概念,
- GRASP用于复杂交互,
- InfLevel用于现实环境。
V-JEPA在理解物体持久性、连续性和形状一致性方面表现得很棒。而像Gemini 1.5 Pro和Qwen2-VL-72B这样的大型多模态语言模型的表现却和随机结果差不多。
特别值得一提的是V-JEPA的学习效率。这个系统只需要128小时的视频就能掌握基本的物理概念,甚至只有1.15亿个参数的小型模型也表现得很出色。
这些发现对人工智能研究领域的一些基本假设提出了质疑:
- 系统是否需要预先编程的物理定律“核心知识”。
- V-JEPA表明,这些知识可以通过观察来学习,就像婴儿、灵长类动物,甚至幼鸟学习物理一样。
这项研究是Meta对JEPA架构更广泛研究的一部分,JEPA为发展世界模型提供了GPT-4或Sora等生成式AI模型的替代方案。
Meta AI的CEO LeCun认为,像Sora这样的像素级完美生成对于发展世界模型来说是一条死路。相反,LeCun主张分层堆叠JEPA模块,以在各个抽象级别进行预测。
目标是创建全面的世界模型,让自主AI系统能更深入地理解环境。在转向视频之前,这个团队已经用I-JEPA(一种以图像为中心的变体)探索了这种方法。
此前另外一个AI教父母级别也在尝试提出了自己的世界模型,也许作为第一代AI创始人,对视觉陷入非常深入!评AI教母李飞飞对计算机视觉的看法