DeepMind 正在研究与 Gemini 类似的 AlphaGo 风格的蒙特卡罗树搜索。扩展这些可能是规划日益抽象的目标和代理行为的关键。学术界围绕这些想法已经有一段时间了。
在 OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 流亡四天之前,几位研究人员向董事会发出了一封信,警告称一项强大的人工智能发现可能威胁人类
米拉·穆拉蒂 (Mira Murati) 周三告诉员工,一封有关名为 Q*(发音为 Q-Star)的人工智能突破的信促使董事会采取了行动。
考虑到巨大的计算资源,新模型能够解决某些数学问题。虽然数学成绩仅相当于小学生的水平,但在此类测试中取得好成绩让研究人员对 Q* 未来的成功非常乐观。
OpenAI 的突破性 Q* 可能是什么?
听起来好像和Q-learning有关。(例如,Q*表示贝尔曼方程的最优解。)或者,指A*算法和Q学习的组合。
一种自然的猜测是,它是 token 轨迹的 AlphaGo 式蒙特卡罗树搜索。这似乎是一个自然的下一步:
- 之前,像 AlphaCode 这样的论文表明,即使是大模型中非常简单的强力采样也可以让你在竞争性编程方面取得巨大进步。
- 下一个逻辑步骤是以更有原则的方式搜索令牌树。这在编码和数学等设置中尤其有意义,因为它们有一种简单的方法来确定正确性。
事实上,Q* 似乎是关于解决数学问题
有人想猜测 OpenAI 的秘密 Q* 项目吗?
- 类似于具有中间评估的思想树(如 A*)?
- 蒙特卡洛树搜索就像使用 LLM 解码器和 q 学习(如 AlphaGo)进行前向推出?
- 也许他们指的是 Q-Bert,它结合了大模型和深度 Q 学习
在我们兴奋之前,学术界已经围绕这些想法思考了一段时间。过去 6 个月里有大量论文可以说是结合了某种思想树和图搜索。还有一些关于状态空间强化学习和大模型的工作。
OpenAI 发言人 Lindsey Held Bolton 对此予以驳斥:在与 The Verge 分享的一份声明中驳斥了这一观点:米拉告诉员工媒体报道的内容,但她没有对信息的准确性发表评论。
谷歌 DeepMind 的 Gemini 目前是推迟到 2024 年初推出的 GPT4 的最大竞争对手,它也在尝试类似的事情:根据 Hassabis 的说法,通过思想链基于 AlphaZero 的 MCTS。在较高的层面上,你可以认为 Gemini 将 AlphaGo 类系统的一些优势与大型模型的惊人语言能力相结合。当然还有一些非常有趣的新创新。
与 DeepMind 首席 AGI 科学家 Shane Legg 的说法一致:“要真正创造性地解决问题,你需要开始搜索。”
通过 Q*,OpenAI 很可能解决了小型模型的规划/代理行为。将其扩展到非常大的模型,您就可以开始规划越来越抽象的目标。这是一个根本性的突破,也是代理行为的关键。
要解决有效地解决下一个令牌预测是不够的。您需要一种内部独白,在使用计算实际冒险分支之前,使用较少的计算遍历可能性树。在这种情况下,规划是指生成树并预测最快路径到解决方案
如果这是真的,而且确实是一个突破,那可能会造成整个混乱:对于真正的超级智能,你需要灵活性和系统性。将通用智能和狭义智能机制结合起来(DeepMind 的 AGI 分类法https://arxiv.org/pdf/2311.02462.pdf),可能是通向通用超级智能和狭义超级智能的途径。