关于OpenAI Q* 项目的谣言背后的真实的研究


11 月 22 日,在OpenAI解雇(然后重新聘用)首席执行官Sam Altman几天后:

The Information 报道 称OpenAI取得了一项技术突破,这将使其能够“开发出更强大的人工智能模型”。新模型被称为 Q*(发音为“Q star”),能够解决以前从未见过的数学问题。

路透社报道称,几名OpenAI员工向董事会发出了一封信,警告他们称一项强大的人工智能发现可能威胁人类。然而,路透社无法审查这封信的副本,随后的报道也没有将奥特曼的解雇与对 Q* 的担忧联系起来。

两家媒体都将这一所谓的突破与董事会解雇奥特曼的决定联系起来。

下面解释为什么为数学问题设计的分步推理技术可以有更广泛的应用。

循序渐进推理的力量
考虑以下数学问题:

约翰给了苏珊五个苹果,然后又给了她六个。然后苏珊吃了三个苹果,并给了查理三个。她把剩下的苹果给了鲍勃,鲍勃吃了一个。然后鲍勃把他的一半苹果给了查理。约翰给了查理七个苹果,查理又给了苏珊三分之二的苹果。苏珊然后给了查理四个苹果。查理现在有多少个苹果?

我们大多数人在小学时都记住了 5+6=11 等基本数学知识。因此,如果问题只是说“约翰给了苏珊 5 个苹果,然后又给了她 6 个”,那么我们一眼就能看出苏珊有 11 个苹果。

但对于更复杂的问题,我们大多数人在解决问题时都需要在纸上或头脑中进行记录。首先我们将 5+6=11 加起来。那么我们取11-3=8。那么8-3=5,以此类推。通过一步步思考,我们最终会得到正确答案:8。

同样的技巧也适用于大型语言模型。

在 2022 年 1 月发表的一篇 著名论文中,谷歌研究人员指出,如果大型语言模型每次被提示一步推理,就会产生更好的结果。

对于大型语言模型来说,“五”和“六”这样的数字是标记——与“the”或“cat”没有什么不同。大模型知道 5+6=11,因为这个标记序列(以及诸如“五加六等于十一”之类的变体)在其训练数据中出现了数千次。但法大模型的训练数据可能不包含任何长计算的示例,例如 ((5+6-3-3-1)/2+3+7)/3+4=8。因此,如果要求语言模型一步完成此计算,它很可能会感到困惑并产生错误的答案。

另一种思考方式是,大型语言模型没有任何外部“临时空间”来存储中间结果,例如 5+6=11。思想链推理使大模型能够有效地使用自己的输出作为暂存空间。这使得它能够将复杂的问题分解为小步骤——每个步骤都可能与模型训练数据中的示例相匹配。

解决更难的数学问题
在 Google 发表关于思维链提示的论文的几个月前,OpenAI 发布了包含 8,500 个小学数学应用题的数据集(称为GSM8K)以及一篇  描述解决这些问题的新技术的论文。OpenAI 不会生成单个答案,而是让大模型生成 100 个思路答案,并使用称为验证器的第二种模型来对每个答案进行评分。在这 100 个回复中,系统将返回评分最高的答案。

您可能会认为训练验证器模型与训练大模型以生成正确的响应一样困难,但 OpenAI 的测试表明并非如此。OpenAI 发现,一个小型生成器与一个小型验证器相结合,可以产生与单独使用一个更大的生成器(参数是其 30 倍)一样好的结果。

2023 年 5 月的一篇 论文 提供了 OpenAI 在该领域工作的最新情况。OpenAI 已经超越了小学数学,转而研究 具有更具挑战性问题的数据集 (称为 MATH)。OpenAI 现在不再让验证者对整个答案进行评分,而是训练验证者来评估每个步骤。
该论文结论:在推理过程的每一步使用验证器比等到最后验证整个解决方案会产生更好的结果。

这种逐步验证技术的一大缺点是它更难实现自动化。MATH 训练数据包含每个问题的正确答案,因此很容易自动检查模型是否得出正确的结论。但 OpenAI 没有一个好的方法来自动验证中间步骤。该公司最终聘请了一些人员,他们为 75,000 个解决方案中的 800,000 个步骤提供反馈。

寻找解决方案
GSM8K 和 MATH 数据集中的问题可以通过简单、逐步的方式解决。但并非所有数学问题都是这样。以这个问题为例:

您正在筹划一场有五张桌子、每张桌子三位客人的婚宴。

爱丽丝不想和贝瑟妮、艾伦或基米坐在一起。
贝瑟妮不想和玛格丽特坐在一起。
查克不想和南希坐在一起。
菲奥娜不想和亨利或查克坐在一起。
杰森不想和贝瑟妮或唐纳德坐在一起。
格兰特不想和英格丽特、南希或奥利维亚坐在一起。
亨利不想和奥利维亚、路易丝或玛格丽特坐在一起。
路易丝不想和玛格丽特或奥利维亚坐在一起。

您如何安排客人才能尊重所有这些偏好?

当我给GPT-4这样的提示时,它就 开始 一步步解决问题推理:

  • 第1桌:爱丽丝、查克和唐纳德。
  • 第2桌:贝瑟妮、菲奥娜、艾伦
  • 第3桌:杰森、格兰特、英格丽特

但当它走到第四张桌子时,却卡住了。它还没让亨利、玛格丽特和露易丝坐下。他们都不愿意坐在一起,可是只剩下两张桌子了。

在这种情况下,我们无法指出 GPT-4 犯错的具体步骤。它为前三桌做出了合理的选择。事实证明,这些早期的选择使得剩下的客人无法入座。

这就是计算机科学家所说的 NP 难问题。没有线性求解的通用算法。你只需尝试一种可能的安排,看看是否可行,如果不可行,就返回原路。

GPT-4 可以通过在上下文窗口中添加更多文本来实现这种回溯,但这并不能很好地扩展。更好的办法是给 GPT-4 一个 "退格键",这样它就可以删除最后一个推理步骤--或者可能是最后几个步骤--然后再试一次。要做到这一点,系统还需要一种方法来跟踪它已经尝试过的组合,以避免重复劳动。这样,LLM 就能探索出类似下面这样的可能性树:


今年 5 月,来自普林斯顿大学和谷歌 Deepmind 的研究人员发表了一篇论文 published a paper ,提出了一种名为 "思维之树"(Tree of Thoughts)的方法。思维之树 "不是试图用单一的推理链来解决问题,而是让永利国际娱乐系统地探索一系列向不同方向 "分支 "的推理链。

研究人员发现,这种算法在某些传统大型语言模型难以解决的问题上表现出色--这些问题不仅包括名为 "24 的游戏 "的数学难题,还包括一项创意写作任务。

AlphaGo 模型
我现在介绍了 OpenAI 和 DeepMind 迄今为止发表的研究成果,内容涉及他们为使大型语言模型更好地解决数学应用问题所做的努力。现在,让我们进行更多推测并讨论这项研究可能会走向何方。

10 月,播客Dwarkesh Patel 采访了 DeepMind 联合创始人兼首席科学家 Shane Legg,了解该公司实现通用人工智能的计划。Legg 认为,迈向 AGI 的关键一步是将大型语言模型与搜索可能响应树的能力相结合:

这些基础模型是一种世界模型,要想真正创造性地解决问题,就需要开始搜索。所以,如果我想想 AlphaGo 和著名的第 37 步棋,它是从哪里来的?是来自于它所看到的人类对弈数据还是类似的东西?不是的。AlphaGo发现有一步棋不太可能下,但又似是而非,然后通过搜索过程,发现这步棋其实是非常非常好的。因此,要想获得真正的创造力,你需要在各种可能性中进行搜索,找到这些隐藏的瑰宝。

当莱格提到 "著名的第37步棋 "时,他指的是2016年DeepMind的AlphaGo软件与排名第一的围棋选手李世石之间比赛的第二局。大多数人类专家最初认为 AlphaGo 的第 37 步棋是个错误。但 AlphaGo 赢得了比赛,随后的分析表明,这步棋终究是一步好棋。AlphaGo 获得了人类棋手忽略的围棋洞察力。

AlphaGo 从当前棋盘状态出发,模拟了数千局可能的对局,从而获得了这样的洞察力。可能的走棋顺序太多了,计算机不可能一一检查,因此 AlphaGo 使用神经网络来帮助控制局面。

其中一个网络被称为 "策略网络"(policy network),它预测哪些棋步最有希望,因此值得在模拟对局中 "下出来"。第二个网络,即价值网络,则估算所产生的棋盘状态是对白棋更有利还是对黑棋更有利。根据这些估计结果,AlphaGo 向后推演,决定下哪步棋。

Legg 的观点是,类似的树状搜索可能会提高大型语言模型的推理能力。大型语言模型在选择答案之前,可能会探索成千上万种不同的回答,而不是仅仅预测一个最有可能的标记。事实上,DeepMind 的 "思想之树 "论文似乎就是朝着这个方向迈出的第一步。

早些时候,我们看到 OpenAI 尝试通过将生成器(生成潜在的解决方案)与验证器(估计这些解决方案是否正确)配对来解决数学问题。这与 AlphaGo 有着明显的相似之处,后者有一个策略网络(生成潜在的棋步)和一个价值网络(估计这些棋步是否会导致有利的棋盘状态)。

如果将 OpenAI 的生成器和验证器网络与 DeepMind 的 "思维树 "概念结合起来,就能得到一个与 AlphaGo 非常相似的语言模型,而且可能具备 AlphaGo 的某些强大推理能力。

为什么叫 Q*
在 AlphaGo 之前,DeepMind 在 2013 年发表了一篇关于训练神经网络赢得雅达利电子游戏的论文2013 paper 。DeepMind 并没有手工编码每种游戏的规则,而是让网络玩实际的雅达利游戏,这样它就能通过不断尝试和错误来了解这些游戏。

DeepMind 将其 Atari 解决方案命名为 Deep Q-learning,源于早期一种名为 Q-learning 的强化学习技术。DeepMind 的Atari人工智能包含一个名为 Q 函数的函数,用于估算任何特定动作(例如向左或向右推动操纵杆)可能带来的奖励(例如更高的分数)。当系统玩 Atari 游戏时,它会优化 Q 函数,以便更好地估算哪些动作能获得最佳结果。

DeepMind 2016 年的 AlphaGo 论文再次使用字母 Q 来表示 AlphaGo 的动作值函数--该函数用于估算任何给定动作取得胜利的可能性。

AlphaGo 和 DeepMind 的 Atari 机器人是强化学习(一种从经验中学习的机器学习技术)的典范。在大型语言模型兴起之前,强化学习也是 OpenAI 的主要关注点。例如,2019 年,OpenAI 利用强化学习让机器手训练自己解魔方。

有了这些背景资料,我们就可以对 Q* 的功能做一个有根据的猜测:将大型语言模型与 AlphaGo 式搜索结合起来--最好是用强化学习来训练这种混合模型。

我们的目标是找到一种方法,让语言模型在高难度的推理任务中通过 "自我对抗 "来提高效率。

这里的一个重要线索是 OpenAI 今年早些时候决定聘请计算机科学家诺姆·布朗 (Noam Brown)。布朗在卡内基梅隆大学获得了博士学位,在那里他开发了第一个可以 以超人水平玩扑克的人工智能。然后布朗去了 Meta,在那里他建立了一个 AI 来玩《外交》。外交的成功取决于与其他玩家结成联盟,因此强大的外交人工智能需要将 战略思维与自然语言能力结合起来

对于试图提高大型语言模型推理能力的人来说,这似乎是一个很好的背景。

布朗在 6 月发推文说:多年来,我一直在研究扑克和外交等游戏中的人工智能自我对弈和推理,我现在将研究如何使这些方法真正通用。

AlphaGo 和 布朗 的扑克软件中使用的搜索方法是针对那些特定游戏的。但布朗 预测 :如果我们能发现一个通用版本,好处可能是巨大的。是的,推理可能会慢 1,000 倍且成本更高,但我们将为新的抗癌药物支付多少推理成本?或者证明黎曼猜想?

相信 布朗 正在研究 Q* 的人之一是 Meta 的首席人工智能科学家 Yann LeCun,布朗 今年早些时候一直在 Meta 工作。
LeCun 在 11 月发推文说:Q* 很可能是 OpenAI 的规划尝试,他们聘请了诺姆·布朗来解决这个问题。

两大挑战
如果您曾经与科学家或工程师相处过,您可能会注意到他们喜欢白板。当我在研究生院学习计算机科学时,我们花了很多时间站在白板周围绘制图表或方程来解决问题。当我暑假在谷歌纽约办公室实习时,到处都是白板。

白板对于这类工作非常有用,因为人们在开始时往往不知道如何解决一个棘手的技术问题。他们可能会花几个小时勾勒出一个潜在的解决方案,却发现无法完全实现。然后,他们可能会擦掉整个草图,换一种方法重新开始。或者,他们可能会认为解决方案的前半部分是合理的,但擦掉后半部分,转向另一个方向。

这本质上是一种智力树搜索:在许多可能的解决方案中反复推敲,直到找到一个似乎能真正解决问题的方案。

OpenAI和DeepMind等机构之所以对将LLM与AlphaGo式搜索树结合起来如此兴奋,是因为他们希望这将使计算机也能进行这种开放式的智力探索。你可以让 LLM 开始研究一个具有挑战性的数学问题,然后上床睡觉,第二天早上醒来,发现它已经考虑了成千上万种可能的解决方案,只找到了几个有希望的。

这是一个鼓舞人心的愿景,但 OpenAI 要想将其变为现实,至少要克服两大挑战:

第一个挑战:自我对弈
第一个挑战是如何让大型语言模型进行 "自我对弈"。AlphaGo 与自己对弈,并从输赢中学习。OpenAI 让其魔方软件在模拟物理环境中进行练习。它根据模拟魔方最终是否处于 "解 "的状态来了解哪些操作是有帮助的。

我们的梦想是让大型语言模型通过类似的自动 "自我游戏 "来提高推理能力。但这需要一种自动检查特定解决方案是否正确的方法。如果系统需要人检查每个答案的正确性,那么训练过程就不可能达到与人竞争的规模。

就在 2023 年 5 月发表论文时,OpenAI 还在雇佣人工检查数学解答的正确性。因此,如果这里有什么突破,那一定是在过去几个月里发生的。

第二个挑战:学习是一个动态过程
我认为第二个挑战更为根本:通用推理算法在探索可能的解决方案时,需要具备即时学习的能力。

当一个人在白板上解决问题时,他所做的不仅仅是机械地重复可能的解决方案。每当一个人尝试一个行不通的解决方案时,他们对问题的了解就会多一点。他们改进了推理系统的心智模型,并对哪种解决方案可能有效有了更好的直觉。

换句话说,人类的思维 "政策网络 "和 "价值网络 "并不是一成不变的。我们在一个问题上花费的时间越多,就越善于思考有前景的解决方案,也越善于预测所提出的解决方案是否可行。如果没有这种实时学习能力,我们就会迷失在潜在推理步骤的无限空间中。

相比之下,当今大多数神经网络都将训练和推理严格分开。一旦 AlphaGo 接受了训练,它的策略和价值网络就会被冻结,在对局过程中不会发生变化。这对围棋来说没问题,因为围棋足够简单,可以在自我对弈过程中体验各种可能的对局情况。

但现实世界远比围棋棋盘复杂得多。顾名思义,做研究的人要解决的是一个前人没有解决过的问题,所以很可能与训练中遇到的问题并不十分相似。

因此,通用推理算法需要一种方法,让模型在试图解决相同问题时,在推理过程中获得的洞察力能为模型的后续决策提供参考。然而,当今的大型语言模型完全通过上下文窗口来保持状态,而 "思维树 "方法的基础是在模型从一个分支跳转到另一个分支时从上下文窗口中删除信息。

一种可能的解决方案是使用图而不是树进行搜索,这是八月发表的论文中提出的一种方法。这可以让大型语言模型结合从多个 "分支 "获得的见解。

但我认为,要建立一个真正通用的推理引擎,还需要更基本的架构创新。我们需要的是一种方法,让语言模型能够学习训练数据之外的新抽象概念,并在探索可能的解决方案时,让这些不断发展的抽象概念影响模型的选择。

我们知道这是可能的,因为人脑就是这样做的。但 OpenAI、DeepMind 或其他任何人要想在硅技术中做到这一点,可能还需要一段时间。