Physical Intelligence发布“机器人奥运会”五项挑战,展示π0.6模型在推门、翻袜、开锁、处理狗屎袋、洗锅等日常物理任务中的突破,直面莫拉维克悖论,证明通用物理智能需依赖真实机器人数据预训练。
人类觉得轻松如呼吸的事,机器人却要拼尽全力?这场“机器人奥运会”彻底颠覆你对AI的认知!
为什么机器人能解国际数学奥林匹克金牌题,却连一双袜子都翻不过来?为什么它能在虚拟世界里横扫围棋冠军,却连一扇普通的弹簧门都推不过去?
这不是段子,更不是讽刺,而是真实存在于人工智能与机器人领域的“莫拉维克悖论”——那些对我们人类来说毫不费力的日常动作,恰恰是当前机器人技术最难攻克的“珠穆朗玛峰”。
最近,一家名为“Physical Intelligence”(物理智能)的前沿研究公司发布了一组名为“机器人奥运会”的挑战视频,用他们最新的π0.6模型,向全世界展示了机器人在现实物理世界中挣扎、失败、再尝试、最终成功的全过程。这五项赛事没有炫酷的激光眼、没有科幻电影般的动作,却比任何一场AI辩论都更震撼人心:因为它们直面一个根本问题——智能,不只是思考,更是身体。
莫拉维克试炼场:为什么“简单”动作是机器人最难的金牌?
1996年,深蓝击败世界国际象棋冠军,但它仍需要人类帮它挪动棋子;
2016年,AlphaGo战胜李世石,却依然无法亲手把棋子放到棋盘上;
今天的大语言模型可以写出IMO金牌答案,却连一支铅笔都握不稳。
这种认知能力与身体能力的巨大鸿沟,就是“莫拉维克悖论”的核心:人类觉得难的事(如高数、战略、逻辑推理),对机器来说反而“简单”;而人类觉得简单的事(如拧钥匙、翻袜子、洗锅),对机器来说却是地狱级挑战。 (也有称:智能锯齿)
原因很简单——我们的大脑花了数百万年进化出对物理世界的本能直觉:抓握、平衡、力反馈、材料形变感知……这些能力早已内化到神经系统的底层,我们甚至意识不到自己在“计算”。但机器人没有这样的进化遗产,它必须从零开始,用数据、算法和无数次试错,去模拟我们与生俱来的“物理直觉”。而“机器人奥运会”正是为这种直觉设立的试炼场。
金牌挑战一:推门而入——机器人如何与“自闭门”斗智斗勇?
第一项金牌任务听起来再普通不过:推开一扇带杠杆把手的自动回弹门,并走进去。
但对机器人而言,这简直是“多任务地狱”。它必须先用机械臂下压门把手,施加恰到好处的力让门锁解锁;接着,在门开始回弹前,迅速将身体底盘推进门框;同时,手臂还得继续撑住门,防止它在机身未完全通过时猛然关闭。
整个过程要求机器人在空间感知、力控制、动作协调和时序规划之间达成精密平衡。
Physical Intelligence的π0.6模型做到了!它没有依赖预设路径,而是通过视觉语言动作(VLA)架构,实时理解“门正在关闭”“我还在门框中”“必须继续施力”等语义状态,并动态调整动作策略。更惊人的是,整套策略仅通过不到9小时的真实操作数据微调而成——这意味着它不是专门为“推门”写的程序,而是从海量物理交互中“泛化”出了推门的智慧。
银牌挑战二:袜子翻面——柔软织物为何是机器人的噩梦?
第二项任务是“洗衣类”挑战。
金牌目标是:把一件里朝外的衬衫翻正并挂上衣架。可惜,团队当前的机械夹爪太宽,根本塞不进衬衫袖口——硬件限制让金牌梦碎。但他们转而挑战银牌任务:把一只袜子从里朝外翻成正面。
别笑!这看似小儿科的动作,对机器人而言却充满陷阱。袜子是高度可变形、无固定结构的柔性物体,抓取点随时变化,视觉系统极易因布料褶皱而误判。更糟的是,机器人的夹爪缺乏人类手指的灵巧度和触觉反馈,稍一用力就会把袜子扯破或滑脱。
然而,π0.6模型通过8小时的数据训练,学会了“捏住袜口边缘—缓慢翻卷—利用布料自身张力辅助翻转”的策略。视频中,机器人甚至能处理不同材质、不同尺寸的袜子,成功率高达52%。这背后是VLA模型对“织物动力学”的隐式建模——它不懂布料物理方程,却从数据中“感觉”到了如何与柔软共舞。
金牌挑战三:钥匙开锁——毫米级精度与扭矩控制的极限考验!
第三项“基础工具使用”挑战堪称全场高光。
金牌任务:用一把小钥匙打开挂锁。这需要两项顶级能力:一是视觉对准——钥匙齿必须精确插入锁芯,误差不能超过0.5毫米;二是力控输出——插入后需施加恰到好处的扭矩旋转锁芯,太轻打不开,太重会卡死甚至损坏钥匙。
更难的是,机器人必须全程手持钥匙,不能中途放下调整姿态(原任务设定是人递钥匙,但团队故意改为“从桌面拾取”,增加难度)。
结果?成功!π0.6不仅完成了静态桌面版,还在移动机器人平台上复现了这一操作。相比之下,银牌任务“做花生酱三明治”看似简单,实则更复杂:它涉及长时程规划(拿面包—挖花生酱—均匀涂抹—切三角形)、多模态感知(判断酱料厚度)、精细力控(避免面包压碎)等。机器人虽然完成了,但耗时更长、失败率更高——这再次印证:认知简单≠物理简单。
银牌挑战四:狗屎袋操作——透明塑料如何“致盲”机器人?
第四项“指尖灵巧”挑战聚焦微观操作。
银牌任务是:打开一个狗屎袋,套在夹爪上,模拟拾取“狗粪”后再将袋子翻卷封口。听起来恶心,技术难度却极高。问题出在袋子本身——超薄透明塑料在抓取时会紧贴夹爪,完全遮挡手腕摄像头的视野,导致机器人“失明”。同时,塑料袋极易静电吸附、滑脱或撕裂,需要极其轻柔的摩擦力控制。
π0.6模型通过反复试错,学会了“先用指尖撑开袋口边缘—缓慢套入—利用视觉盲区外的全局视角辅助定位”的策略。至于金牌任务“剥橙子”?硬件直接劝退——当前夹爪无法模拟人类指甲的尖锐度和剥皮时的“挑-撕-卷”复合动作。团队曾尝试加装金属工具辅助,但因违反“纯机器人操作”规则而自判“取消成绩”。这恰恰说明:物理智能的瓶颈,有时不在算法,而在机械设计。
金牌挑战五:洗锅大作战——湿滑、油腻与泡沫的三重地狱!
最后一项“湿滑场景”挑战直击家庭清洁痛点。
金牌任务:用洗洁精、水和海绵清洗一口油腻的煎锅,包括正反两面。这任务集合了机器人最怕的三大要素:液体(水流不可预测)、油脂(改变表面摩擦系数)、泡沫(遮挡视觉并影响力反馈)。更别提还要完成银牌任务(清洗沾满花生酱的夹爪)和铜牌任务(擦拭台面)。
π0.6模型不仅完成了全套流程,还展示了惊人的适应性——当海绵吸水变重、锅底油渍分布不均时,它能动态调整刷洗力度和轨迹。关键在于其VLA架构将“洗锅”理解为语义目标(“去除油脂”“冲洗干净”),而非固定动作序列。因此,即使环境微变(如水温、泡沫量),策略依然有效。这种从“语义意图”到“物理执行”的映射能力,正是通用物理智能的雏形。
技术核心揭秘:π0.6为何能突破莫拉维克悖论的枷锁?
这一切的幕后英雄,是Physical Intelligence自研的π0.6模型——一个真正的“视觉-语言-动作”(Vision-Language-Action, VLA)通用策略模型。与传统“行为克隆”(单纯模仿人类操作录像)不同,π0.6的核心是“具身代理式编码”:它不只学“怎么做”,更学“为什么这么做”以及“做错了怎么办”。
例如,在推门任务中,若门突然卡住,模型会识别“任务受阻”状态,并尝试备用策略(如调整推力角度或后退重试)。这种错误恢复能力,源于其在预训练阶段接触过海量、多样的物理交互数据,形成了对“物理常识”的隐式理解。
更关键的是,团队对比了未经过机器人预训练的普通视觉语言模型(VLM)——后者在所有任务中平均任务进度仅9%,几乎寸步难行。这证明:仅靠互联网文本和图片训练出的“认知智能”,无法解决物理世界的问题;必须通过真实机器人数据,构建“物理智能”的专属基础模型。
数据即燃料:9小时微调如何引爆通用能力?
最令人震撼的,或许是这些成果的“低成本”属性。团队强调,他们并未为每个任务组建专项研究小组,也未使用强化学习进行数周优化(尽管他们有能力这么做)。绝大多数任务仅通过“不到9小时”的真实机器人操作数据进行微调,就达到了52%的平均成功率。这意味着π0.6的预训练模型已内化了足够丰富的物理交互基元(primitives)——如“施加持续力”“处理柔性物体”“控制液体流动”等。
当面对新任务时,它只需少量示例就能激活并重组这些基元,形成新策略。这正是“基础模型”范式的威力:将大规模预训练作为“物理常识库”,下游任务只需轻量适配。未来,随着模型能力提升,所需微调数据还将进一步减少,甚至可能通过“人类演示视频”或“自主强化学习”自动生成数据,彻底摆脱人工标注依赖。
物理智能:从厨房到工厂,从家庭到火星
Physical Intelligence的这场“机器人奥运会”不仅是一次技术秀,更是一份宣言:真正的通用人工智能(AGI)必须包含“物理智能”这样领域场景Context。