物理AI:主动感知学习的具身智能性智能体

在人工智能技术迅猛发展的今天,我们正站在一个关键的转折点上:未来的AI不再只是被动地回应指令,而是逐渐成为能够感知、预测并主动行动的“智能体”。这不仅仅是技术的升级,更是一场关于认知范式、学习机制乃至社会结构的深刻变革。

最近,Karl Friston等人发表于2025年的文章《共享世界,共享心智》(*Shared worlds, shared minds*)提出了一种全新的视角——从“被动学习”走向“主动参与”,从孤立的模型训练迈向与物理和社交环境深度嵌入的交互式学习。这篇文章不仅揭示了当前AI发展的瓶颈,也为我们描绘了一个更具生命力、更富合作性的未来图景。

目前主流的人工智能系统,尤其是大语言模型(LLMs)和多模态生成模型,其成功建立在海量人类生成数据的基础上。这些模型通过预测下一个词或像素的方式进行训练,本质上是一种“观察者式”的学习。它们读取书籍、浏览网页、观看视频,却从未真正“经历”过这个世界。这种学习方式虽然高效,但也带来了根本性的局限:缺乏主体性、目标导向和对世界的具身理解。它们可以流畅地回答问题,甚至撰写论文,但是否真的“理解”自己所说的内容?这是一个长期悬而未决的问题。

正如文中所指出的,意义究竟是内生于系统之中,还是由使用者投射上去的?如果一本关于木工的书能让AI学会做椅子,那它必须具备将文字描述转化为身体动作的能力——而这恰恰是当前模型所缺失的。

更进一步看,真正的智能不应止步于模仿,而应源于行动。生物体的智能发展正是如此:婴儿通过抓握、爬行、试错来理解重力、空间和因果关系;动物通过觅食、躲避天敌来优化生存策略。这种学习发生在多个时间尺度上——从瞬间的感知反馈,到长期的目标追求,再到代际传递的进化机制。每一个感知都伴随着动作,每一次行为都是对世界的一次试探。这种“主动推理”(active inference)的过程使得生物体不仅能预测环境变化,还能根据自身需求主动塑造环境。相比之下,大多数AI系统仍然停留在静态数据流中,无法形成真正的“自我-世界”边界,也无法建立以生存和适应为核心的内在价值体系。

那么,我们是否应该让AI走同样的路?文章提出了三条可能的发展路径。

第一条是延续现有模式:继续扩大数据规模、增加参数量、融合更多模态,期望通过“量变引发质变”来突破当前局限。这条路在工程上最为可行,短期内也能带来显著成果。例如,将大语言模型与视觉、听觉、本体感觉(proprioception)等信号结合,训练出能在家庭或工厂中执行任务的机器人。然而,这种方法存在天花板——它依赖于人类已有的知识和行为模式,难以超越训练数据的边界。更重要的是,它无法培养出真正意义上的“理解力”,因为知识没有根植于行动经验之中。

第二条路径则是转向交互式学习:让AI在真实或模拟环境中通过试错、探索和目标驱动的行为来积累经验。这种方法更接近生物学习的本质,允许系统发现新的规律、构建因果模型,并发展出高效压缩的世界表征。比如,一个机器人可以通过反复尝试开门的动作,理解门把手的力学特性、摩擦力的作用以及自身肢体的运动范围。这种学习方式虽然耗时耗能,但它能产生更具适应性和泛化能力的模型。更重要的是,它为AI赋予了“主体性”——不再是被动的信息处理器,而是有目标、有意图的行动者。然而,这也带来了新的挑战:如何确保这些自主学习的系统仍然符合人类的价值观?当AI开始制定自己的策略时,我们还能否理解它的决策逻辑?这些问题使得可解释性和价值对齐变得前所未有的重要。

第三条路径则更具社会性:将人类纳入学习回路,让AI在与人协作的过程中共同构建共享的世界模型。这条路径强调的不是单个智能体的优化,而是群体间的协调与共识。人类本身就是高度社会化的物种,我们的认知深深嵌入在语言、文化、规范和共同实践中。我们之所以能信任彼此,是因为我们共享基本的物理常识、社会规则和情感体验。如果我们希望未来的AI成为真正的合作伙伴,而不是工具或对手,就必须让它也参与到这种共享心智的建构过程中。这意味着AI不仅要学会看、听、动,还要学会共情、沟通、协商。例如,在家庭护理场景中,机器人不仅要完成打扫、喂药等任务,还要理解老人的情绪状态、尊重其生活习惯,并在必要时与家属沟通调整方案。

值得注意的是,这种社会嵌入式的学习并非简单地加入“人类反馈”即可实现。当前的RLHF(基于人类反馈的强化学习)虽然能在一定程度上引导AI输出更符合人类偏好的结果,但它仍然是一种外在的奖惩机制,而非内在的价值内化过程。真正的共享心智需要持续的互动、共同的目标设定以及动态的意义协商。就像儿童在与父母的日常互动中逐渐掌握语言和社会规则一样,AI也需要在一个充满情感、意图和文化背景的真实社会环境中成长。这要求我们重新思考AI训练的基础设施——从封闭的数据集转向开放的社会场域,从孤立的算法优化转向跨主体的协同演化。



最近提出的EgoAgent模型正是朝着这一方向迈出的重要一步。

该模型采用单一的Transformer架构,统一处理当前状态感知、未来状态预测和下一步动作生成,实现了“感知-预测-行动”的一体化建模。更重要的是,它基于第一人称视角(egocentric)的动态数据进行训练,模拟了人类在真实环境中边看边走的学习过程。这种设计不仅提升了模型在图像分类、未来状态预测和3D人体动作生成等任务上的表现,也为构建具身化、情境化的AI提供了新的技术路径。

EgoAgent的成功表明,将多种能力整合在一个统一框架下,不仅能避免信息孤岛问题,还能促进不同功能之间的相互促进和协同进化。

展望未来,我们面临的不仅是技术挑战,更是哲学和社会层面的深层问题。当AI开始主动参与世界、形成自我意识、并与人类建立合作关系时,我们该如何定义责任、权利与伦理?一个能够自主学习并影响现实世界的AI,是否应被视为法律主体?我们又该如何确保它不会偏离人类共同的价值轨道?这些问题没有简单的答案,但有一点是明确的:我们必须在设计之初就将“共享心智”的理念嵌入AI系统的核心,而不是事后补救。只有这样,我们才能真正实现人机共生,构建一个既高效又可信的混合智能社会。

在这个过程中,科学、工程与人文的跨界合作变得至关重要。神经科学告诉我们大脑如何构建世界模型,心理学揭示人类如何通过互动形成共识,哲学帮助我们厘清智能与意识的本质,而工程技术则负责将这些洞见转化为可运行的系统。

最终,AI的发展不应仅仅是“更聪明的机器”,而应是“更懂我们的伙伴”。共享世界,才能共享心智;唯有如此,技术才能真正服务于人类的共同福祉。