大模型+机器人：人形运动作为下一个Token预测

仅使用 27 小时的行走数据进行训练，一个全尺寸的仿人机器人就能在旧金山随意行走。

我们将现实世界中的仿人控制视为下一个标记预测问题，类似于语言中的下一个单词预测。

我们的模型是通过传感器运动轨迹的自回归预测训练出来的因果转换器。

为了考虑数据的多模态性质，我们以模态对齐的方式进行预测，并对每个输入标记预测同一模态的下一个标记。

这种通用表述方式使我们能够利用模态缺失的数据，如没有动作的视频轨迹。我们在一组模拟轨迹上训练我们的模型，这些轨迹来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和 YouTube 上的人类视频。

结果表明，我们的模型能让一个全尺寸的仿人机器人在旧金山随意行走。即使仅使用 27 小时的行走数据进行训练，我们的模型也能迁移到现实世界中，并能泛化到训练过程中未见的指令，如向后行走。这些发现为通过传感器运动轨迹生成建模来学习具有挑战性的真实世界控制任务提供了一条前景广阔的道路。

论文点击标题

网友评论：openai 正式与FigureAI 合作的事实 = 到 2040 年，将有 10 亿代理通用智能人形机器人执行所有体力劳动