顶级AI科学家认为语言模型有局限,正在开发"世界模型"!
随着OpenAI、Anthropic和Big Tech投资数十亿美元开发最先进的大型语言模型,一小群人工智能研究人员正在研究下一件大事。
目前最先进的AI(如ChatGPT)主要依靠大量文本训练,通过分析词语之间的统计关系来生成回答。但像李飞飞(斯坦福教授,ImageNet创始人)和Yann LeCun(Meta首席AI科学家)这样的专家认为,仅靠语言是不够的,AI需要像人类一样理解真实世界的运作方式。
什么是"世界模型"?
人类的大脑不仅能处理语言,还会对周围环境建立心理模型。比如,即使闭着眼睛,你也能想象房间的布局、预测物体的运动轨迹。这种对物理世界的理解,是当前AI所缺乏的。
世界模型的目标是让AI具备类似的能力,能够:
理解三维空间(比如让机器人导航、抓取物体)
预测未来事件(比如自动驾驶预判行人动向)
具备常识推理(比如知道"水杯掉地上会碎")
为什么需要世界模型?
语言不能代表真实世界,李飞飞指出,人类文明不仅依赖语言,还依赖对物理世界的理解。例如,你可以用语言描述骑自行车,但真正学会骑车需要身体协调,而不仅仅是听别人讲解。
李飞飞在安德森·霍洛维茨基金的a16z播客中说:语言在自然界中并不存在,我们不仅生存、生活和工作,而且还建立超越语言的文明。"
(这其实是仿生学理念,非得造出与人一样的智慧生命,但是智能不一定是智慧,只要把人类智慧的一部分变成智能,就为人类如虎添翼了,所以,“具身智能”其实提出了一个非常远大目标,画了大饼)
当前AI的局限性
ChatGPT等大语言模型擅长文本,但不真正"理解"世界。比如,它可能写出流畅的足球比赛分析,但无法真正预测球的运动轨迹。
计算机科学家和麻省理工学院教授Jay Wright Forrester在他1971年的论文《社会系统的反直觉行为》中解释了为什么心理模型对人类行为至关重要:
我们每个人都在不断地使用模型。私人生活和商业中的每个人都会本能地使用模型进行决策。
一个人头脑中关于周围环境的心理图像是模型。
一个人的头脑中并不包含真实的家庭、企业、城市、政府或国家。
一种是使用选定的概念和关系来表示真实的系统。
心理图像是一个模型。
所有的决定都是在模型的基础上做出的。
所有的法律都是在模型的基础上通过的。所有的行政行为都是在模型的基础上采取的。问题不在于使用或忽视模型。问题只是在各种模式中作出选择。
如果人工智能要达到或超过人类的智能,那么它背后的研究人员认为它也应该能够建立心理模型。
(按照维特根斯坦的语言游戏哲学观点,语言是人类是理解世界以后的提炼,对语言分析的智能是能够帮助人类的智能,至于是否预测运动轨迹,是遵循牛顿物理,还是爱因斯坦物理,还是遵循量子涌现论?人类自己都没有搞清楚物理世界,难道让机器人学会人类一样虚幻地看待这世界?心理学可不是严谨的科学)
科学家们如何构建世界模型?
世界模型基于人类对周围世界的心理建构来预测事件
李飞飞的World Labs团队专注于让AI理解3D环境,目标是让AI具备类似人类的空间智能。应用可能包括机器人、AR/VR、军事侦察(比如帮助士兵分析战场环境)。
World Labs在其网站上表示:“我们的目标是将人工智能模型从二维像素平面提升到全三维世界--虚拟的和真实的--赋予它们和我们一样丰富的空间智能。”
Li在No Priors播客上说,空间智能是“理解,推理,互动和生成3D世界的能力”,因为世界基本上是三维的。
李说,她看到了世界模型在创意领域、机器人技术或任何保证无限宇宙的领域的应用。就像Meta、Anduril和其他硅谷重量级公司一样,这可能意味着军事应用的进步,因为它可以帮助战场上的人更好地感知周围环境,预测敌人的下一步行动。
Yann LeCun在Meta的研究团队用视频训练AI,让AI学会抽象表示(比如从像素中提取关键信息)。目标是让AI能像人类一样预测物理事件(比如"如果推倒积木塔,它会怎么倒塌?")。
杨立昆在今年早些时候巴黎的AI行动峰会上说:
基本的想法是,你不能在像素级别进行预测。你训练一个系统来运行视频的抽象表示,这样你就可以在那个抽象表示中进行预测,希望这个表示能够消除所有无法预测的细节。
这就创造了一套更简单的构建模块,用于绘制出世界在特定时间将如何变化的轨迹。
我们需要能够快速学习新任务的人工智能系统:他们需要理解物理世界--不仅仅是文本和语言,而是真实的世界--有一定程度的常识,推理和计划的能力,有持久的记忆--所有我们对智能实体的期望。
主要挑战
数据不足:人类通过感官积累大量经验,但AI缺乏类似的真实世界数据。
计算复杂:模拟3D世界比处理文本困难得多。
建立世界模型的挑战是缺乏足够的数据。与人类几个世纪以来不断完善和记录的语言相比,空间智能的发展程度较低。
李飞飞在No Priors播客上说:
如果我要求你现在闭上眼睛,画出或建立一个你周围环境的3D模型,这并不容易。在我们接受训练之前,我们没有那么多能力生成极其复杂的模型。
为了收集这些模型所需的数据,我们需要越来越复杂的数据工程,数据采集,数据处理和数据合成。
未来展望
这些科学家认为,真正的智能AI必须超越语言,学会像人类一样建模和推理物理世界。这可能在未来带来更强大的机器人、自动驾驶和虚拟助手。
网友热评:
1、正是语言的发明使人类文明得以飞跃。 通过以越来越详细的方式分享信息,我们能够改善我们的思维方式。
所以,虽然语言确实是人类的工具,但它也是把我们带到现代的工具。如果没有它,我们仍然是稍微更聪明的动物。
我相信LLM是一个基本的基础,在此基础上,其他人将能够建立人类感知的其他典型认知功能。
如果你能把一个LLM放在一个身体里,有自主的机构,能够自我改进和永久性,就像我们的大脑一样总是打开的,那就已经弥合了差距,导致人工智能拥有一个完整的世界模型。
我们人类就是这样学习的,生活在这个世界上。我们人类需要数年的时间来形成复杂的抽象思想,而语言则在此之前。
2、撇开人工智能不谈,语言使人类能够分享经验。但也正是通过分享,我们才能思考新的想法。智力并不是在唯我论的真空中运作的:智力和知识通过语言传播。所以,是的,语言不是那么重要,但也不是,语言是相当重要的。
3、深度神经网络不是一个单词列表,而是一个上下文映射。换句话说,他们通过文字来映射信息,而不仅仅是文字。
LLM不是一个词汇表。他们完全有能力理解上下文。但由于它们仅限于文本输入,我们必须给它们比人类更多的上下文。
周二上午11点在办公室开会时对某人说的一句话隐含着与周五晚上11点在酒吧喝酒时不同的上下文。
一个拥有身体并且24/7有感知力的人,会隐含地拥有这种背景。LLM必须被告知。
这就是为什么我提到化身和持久性是两个基本特征,仍然需要发明和整合,以实现基本上能够作为人类的人工智能。
4、Elan Barenholtz提出了一些关于语言学的非常有趣的新观点,即人类的语言模型是一个独立于我们对真实的世界的感知和模型的模型。
LLM的表现表明,语言可以在没有任何感觉或对世界的感知的情况下表现良好。例如,世界“红色”,并有其关系的地方,以其他词的拓扑结构的人类模型的语言。但在我们对真实的世界的感知模型中,红色的感受质要丰富得多。
因此,对于婴儿来说,他们正在学习一种语言的预制语料库,同时建立一个单词的关系模型,大致类似于训练LLM。
但是,随着新的感知嵌入到模型中,一个独立的世界关系模型正在建立:两者都可以单独运行,但在类似于潜在空间的东西中相互映射。
也可以考虑其他模式:
- 想想数学和一个学生建立一个数学原理的拓扑结构,使新的进步,这在一个前数学社会(数学还没有出现的社会)根本不可能发生。
- 想象一下地图本身的发明--理解如何阅读地图可以实现一种新的思维方式,在你的头脑中绘制出你的关系等等--在地图发明之前,这种思维框架可能是不可能的。
再举个更形象的例子:地图!在没有地图的古代,人们认路全靠"往前走看到大树往右拐"。但有了地图后,我们突然就开窍了!就像脑子里装了个GPS,不仅能记住路线,还能想象整个城市的样子,甚至能规划出最优路线。这种"在脑子里画地图"的超能力,古人根本想都不敢想!
所以说啊,数学和地图这样的工具,就像是给大脑装了个"升级补丁"。没有它们的时候,很多高级思维根本不可能实现。就像你现在用手机导航觉得理所当然,但要让你回到没有地图的年代,估计连小区门口都找不着北!( ̄▽ ̄)*
欣顿最近说,人们没有意识到LLM与人类的工作方式有多么相似,旧的语言学模型永远无法再现语言,而LLM做到了。
这是一个令人着迷的时间来看看人工智能的可能性,但新的,可测试和可证伪的人类认知理论也同样令人着迷。
5、Openai和Anthropic模型超越了语言模型。虽然远不是世界模型!
6、Yann LeCun已经兑现了他对V-JEPA 2的承诺。这是一款出色的小型号,可与transformer等配合使用。
7、语言的界限就是我世界的界限 - Wittgenstein维特根斯坦
8、飞飞利的眼光好!我看过她最近的采访。她坚持认为空间智能(视觉推理)对AGI至关重要,这绝对是一个非常好的起点!我只是希望他们能发布一份该死的文件,让他们知道他们在做什么,或者至少有一个总体计划。
据我所知,他们似乎想使用生成方法来构建他们的世界模型。我不确定我是否同意这一点,但我真的很喜欢他们的整体愿景!
回复:你只是用普通人思维想这个问题,这是非常远景的目标,以后会有人说:让我们把上帝复制出来吧,你是不是很赞同,而且掏钱呢?
9、当今最先进的多模态语言模型并不是纯粹由文本驱动的;它们通过处理语言、音频和图像来构建部分世界模型。Lee和他的同事们的方法看起来像是一种温和的尝试,试图创造出比现有模型“稍微”好一点的东西,老实说,我不认为它会成为一个重大突破。
10、AI教母和教父是超着诺贝尔奖来的:谷歌八子创AI革命核心,却与诺贝尔奖无缘!