ROCKET-1通过实时观察和跟踪物体在Minecraft中开采钻石

一个研究小组推出了 ROCKET-1,这是一种新方法,可让 AI 代理与 Minecraft 等虚拟环境进行更精确的交互。该方法将对象检测和跟踪与大型 AI 模型相结合。

要点:

  • 一个研究小组开发了 ROCKET-1,该系统可使 AI 代理在 Minecraft 等虚拟环境中更精确地交互。该系统结合了不同的 AI 模型:GPT-4o 规划任务,Molmo 识别物体,SAM-2 实时跟踪物体。
  • 该系统使用 OpenAI 的“Contractor”数据集进行训练,该数据集包含 16 亿张人类游戏行为的单独图像。使用“后向轨迹重新标记”,ROCKET-1 自动学习识别相关物体并与之互动。
  • 在测试中,ROCKET-1 在简单的 Minecraft 任务中实现了高达 100% 的成功率。对于钻石开采等更复杂的任务,成功率为 25%。一个限制是系统只能与视野范围内的物体交互,这会导致计算工作量增加。


研究人员开发了一种名为“视觉时间上下文提示”的新技术,旨在使人工智能代理能够在虚拟环境中更准确地交互。ROCKET-1 系统结合了物体检测、跟踪和多模态人工智能模型。

研究人员表示,以前控制人工智能代理的方法,例如仅依靠语言模型来生成指令或使用扩散模型来预测世界的未来状态,都存在问题:“语言往往无法有效地传达空间信息,而以足够高的精度生成未来图像仍然具有挑战性。”因此,ROCKET-1 依赖于人工智能模型之间一种新型的视觉通信。

GPT-4o 计划,ROCKET-1 执行
该系统在多个层面上工作:GPT-4o 充当高级“规划器”,将“获取黑曜石”等复杂任务分解为单个步骤。然后,多模态模型 Molmo 使用坐标点识别图像中的相关对象。SAM-2 根据这些点生成精确的对象蒙版并实时跟踪对象。ROCKET-1 本身是执行组件,它根据这些对象蒙版和指令执行游戏世界中的实际操作,控制键盘和鼠标输入。

研究团队表示,这种方法的灵感来自人类行为。研究人员解释道:“在执行人类任务时,例如抓取物体,人们不会预先想象自己握住物体,而是在接近物体时将注意力集中在目标物体上。”简而言之,我们不会试图想象将某物握在手中会是什么感觉——我们只是利用感官知觉将其拿起。

在演示中,该团队展示了人类如何直接控制 ROCKET-1:通过点击游戏世界中的物体,系统就会提示进行交互。在该团队提出的依赖于GPT-4o、Molmo 和SAM-2 的分层代理结构中,人类输入被简化为文本指令。

多种AI模型协同工作
研究团队使用 OpenAI 的“Contractor”数据集进行训练,该数据集包含 16 亿张《我的世界》中人类游戏的单独图像。研究人员开发了一种名为“后向轨迹重新标记”的特殊方法来自动创建训练数据。

该系统利用人工智能模型 SAM-2 回溯录像,自动识别玩家与哪些物体有过互动。然后,这些物体会在之前的帧中被标记,让 ROCKET-1 学会识别相关物体并与之互动。

ROCKET-1:增加计算工作量
该系统的优势在《Minecraft》中复杂的长期任务中尤为明显。在制作工具或开采资源等七项任务中,ROCKET-1 的成功率高达 100%,而其他系统则经常完全失败。即使在开采钻石或制作黑曜石等更复杂的任务中,该系统的成功率也分别达到 25% 和 50%。

研究人员也承认了 ROCKET-1 的局限性:“尽管 ROCKET-1 显著增强了 Minecraft 的交互能力,但它无法与视野之外或之前未遇到过的物体互动。”这种限制导致计算工作量增加,因为更高级别的模型需要更频繁地进行干预。

 Claude 玩毁灭人类游戏的能力,结果好坏参半
Anthropic 的 Claude 3.5 Sonnet AI 现在可以控制计算机,AI 研究员 Ethan Mollick 最近通过一种不同寻常的游戏选择对这一能力进行了测试。

网页游戏《回形针点击器》讲述了一个人工智能在生产回形针的过程中摧毁人类的故事。莫里克在他的通讯《一件有用的东西》中描述了克劳德的新计算机技能如何展示了当今人工智能代理的非凡能力和明显的局限性。

Claude 能够独立理解游戏,制定长期策略,并连续数小时遵循该策略。“感觉就像委托任务,而不是管理任务,”Mollick 描述了他与 AI 代理的互动。Claude 独立点击按钮,分析屏幕截图,并根据新的游戏情况调整策略。

尽管 Claude 采用了 A/B 测试等定价方法,但他还是犯了根本性错误。例如,代理商错误计算了利润,尽管 Mollick 尝试纠正,但代理商仍坚持其有缺陷的策略。

要点:

  • 人工智能研究员 Ethan Mollick 通过让 Anthropic 的 Claude 3.5 Sonnet 计算机玩“Paperclip Clicker”来测试其能力。这是一款浏览器游戏,其中人工智能的目标是毁灭人类,同时最大限度地生产回形针。
  • 克劳德证明它可以独立理解游戏,制定长期战略并坚持数小时。然而,它也会犯一些顽固的错误,比如即使莫里克试图纠正错误的价格计算,它仍然坚持错误的价格计算。
  • 莫里克表示,此次测试既揭示了当前人工智能代理的强大能力,也揭示了其明显的局限性。莫里克表示,这些系统需要采用与之前的聊天机器人完全不同的方法,尽管目前存在缺陷,但很快就会发挥重要作用。