大模型新范式:用更少数据的Q-Learning训练

用更少数据的强化学习Q-Learning可能是推进当前人工智能研究范式的关键。

简而言之:利用强化学习RL进行微调是训练 ChatGPT/GPT-4 等高性能 LLM大模型的秘诀。

但是,强化学习本质上是数据低效的,而且使用人类手动注释数据集来进行强化学习的微调成本极高。有鉴于此,推进人工智能研究(至少在当前模式下)将在很大程度上依赖于两个基本目标:

1.用更少的数据使 RL 运行得更好。使用 LLM 和较小的人工标注数据集,尽可能多地为 RL 合成高质量数据。

通常,我们使用 RL 来学习一种策略,该策略会根据当前状态迭代选择最佳行动。然后,我们使用该策略不断选择下一个状态,并穿越底层环境,直到到达终点/结束状态。RL 的目的是在我们依次选择和访问每个状态时,学习一种能使我们从环境中获得的回报最大化的策略。

LLM 的 RL训练语言模型并不是 RL 的典型问题设置。不过,我们可以很容易地从 RL 的角度来理解文本生成。语言模型通过自动回归输出每个标记来运行。因此,我们的状态只是模型的当前输出。我们的策略就是语言模型,它会根据当前的标记作为输入,预测最有可能的下一个标记。奖励是人类的偏好,我们对模型进行训练,以生成最大化该奖励的文本。

2.RL 算法:利用上述设置,我们可以轻松地应用多种不同的 RL 算法对 LLM 进行微调。
例如,我们可以使用 Q-learning 来建立下一个标记预测模型,并使用查找表来预测简单词汇表中的下一个标记。

但是,存储这种查找表会非常耗费内存(最终无法实现),因此我们希望使用深度 Q-Learning 来代替查找表,用神经网络为下一个标记预测建模。

更进一步说,大多数现代研究在实践中都使用了更实用、数据效率更高的 RL 算法,如 PPO。

在哪里碰壁?
最近的研究向我们表明,使用 RL 对 LLM 进行微调(即从人类反馈中进行强化学习)是非常有效的。但是,有一个主要问题--RL 的数据效率很低,需要我们收集大量数据才能实现良好的性能。

为了收集 RLHF 的数据,我们让人类手动注释他们的偏好(例如,LLaMA-2 就是在 100 万个人类偏好注释的基础上进行微调的)。虽然这种技术效果很好,但成本极高,进入门槛也高得惊人。因此,只有拥有大量资源的组织(如 OpenAI 或 Meta)才会使用 RLHF,而日常从业人员很少使用这些技术(即大多数开源 LLM 使用 SFT,而不使用 RLHF)。

解决方案是什么?
虽然可能没有完美的解决方案,但最近的研究已经开始利用功能强大的 LLM(如 GPT-4)来自动化数据收集过程,以便利用 RL 进行微调。

这首先是由人类学机构人工智能(Constitutional AI by Anthropic)进行的探索,通过 LLM 合成有害性数据,用于 LLM 对齐。后来,谷歌提出了人工智能反馈强化学习(RLAIF),利用 LLM 自动完成 RLHF 的整个数据收集过程。令人惊奇的是,使用 LLM 生成合成数据,以便利用 RL 进行微调,效果令人难以置信。

来自 LLM 的合成数据
我们在各种研究论文中看到,使用大模型 LLM 生成合成数据是一个巨大的研究前沿。这方面的例子包括:

  •  自我指导:LLMs可以自动生成具有LLMs的指令调整数据集(Alpaca、Orca和许多其他模型都采用了类似方法)。
  • LLaMA-2:在人类对少量示例进行注释后,LLMs能够为SFT生成自己的高质量数据。
  •  Constitutional AI:LLMs可以通过RLHF和SFT使用自我批判来生成高质量的数据集,
  • 用于对齐:我们可以通过 LLMs 完全自动化 RLHF 的反馈部分,而不是使用人类来收集反馈,并实现相当的性能。

如果我们坚持当前的下一个标记预测模式(即预训练 -> SFT -> RLHF),只使用解码器转换器,我几乎可以肯定,使用 RL 进行微调,再通过强大的 LLM 合成生成数据,将在 LLM 的民主化/改进方面发挥巨大作用。这种方法能让每个人,而不仅仅是拥有大量资金的研究小组,都能获得最前沿的训练技术!