Apple自玩游戏训练自己的自动驾驶AI系统


Apple 用自己玩游戏的方式造出了一些特别厉害的自动驾驶汽车“大脑”:……自动驾驶的未来可以通过模拟和现实世界的数据来实现……

Apple 的研究人员完全通过自己玩游戏的方式训练了一些聪明的自动驾驶 AI 系统——这些 AI 系统通过模拟驾驶了几百万公里来学习开车。

Apple 说:“我们证明了,通过模拟自己玩游戏,可以产生自然又靠谱的驾驶策略,而且只需要非常简单的奖励机制,训练时完全不用看人类的数据。”

最厉害的是,这个 AI 系统在模拟中遇到的各种高难度测试中,表现比现在最先进的系统还要好。

他们是怎么做到的呢?
靠的是超级多的数据:为了做到这一点,Apple 搞了一个叫“GigaFlow”的系统,这个软件能让他们高效地模拟一大堆复杂的世界,里面有超过一百辆模拟汽车和行人。

GigaFlow 在八张地图中的一张里训练 AI,每张地图都随机被缩放、剪切、翻转和反射干扰。
每张地图的可开车道长度从 4 到 40 公里不等,八张地图的总道路长度是 136 公里。
在每张地图里,Apple 会在随机位置和方向生成一个或多个 AI,让它们开车到地图上随机选的目标点。

GigaFlow模拟了一个城市环境,里面有最多 150 个交通参与者密集互动,速度比现实快 36 万倍,成本不到每开一百万公里 5 美元。

一次完整的训练模拟了超过一万亿次状态变化、16 亿公里行驶里程或 9500 年的主观驾驶经验,只用 10 天就在 8 个 GPU 的节点上完成了。

GigaFlow 带来的结果是:结果是一个强大又自然的驾驶策略,在记录的真实场景中,测试时表现出了最先进的水平,而且训练时完全没看过人类的数据,

Apple 说。在测试中,研究人员在 nuPlan、CARLA 和 Waymax 这些测试中把他们的系统和现在最先进的方法做了比较。在每一个测试中,GigaFlow 的 AI 都以明显的优势打败了之前最先进的技术,主要是因为这些 AI 比对手有更多的模拟经验。

仔细看碰撞数据也很让人振奋:
在 nuPlan 中:

  • 我们的策略在 1118 个场景中发生了 15 次碰撞。
  • 我们分析了每个场景。其中 9 次碰撞是因为初始化无效或传感器噪音(AI 出现在车的边界框里)没法避免。
  • 4 次碰撞是因为不反应的行人 AI 在车停下或躲开时走进了车。
  • 2 次碰撞是因为其他 AI 闯红灯

在 Waymax 中:

  • 我们的策略在 44,097 个场景中发生了 187 次碰撞……
  • 55.6% 是因为基准控制的交通参与者不可避免的 IDM AI 行为,比如直接撞向我们的车。
  • 41.7% 是因为初始化时就在碰撞状态,通常是和行人撞了。
  • 2.7%(也就是 5 个场景)被认为是过错,GIGAFLOW 策略本来可以避免。

为什么这很重要——我们不断学习需要多少特定数据才能有好表现:
GigaFlow 又是一个例子,如果你能找到方法为一项任务搞到大量数据,作为研究人员,你的主要工作就是把数据输入一个非常简单的神经网络,然后放手让它自己学。

GigaFlow 里的 AI 其实很简单,相对较小,通过 PPO 训练。真正的魔法在于,Apple 找到了一种有效的方法来生成大量生态有效的数据,用来训练这些 AI——一旦做到了这一点,它就能创造出在驾驶方面表现出惊人人类特质的东西,同时在很多测试中比人类更安全。

阅读更多:强大的自主性从自我游戏中浮现 (arXiv)