大模型新范式：用更少数据的Q-Learning训练

用更少数据的强化学习Q-Learning可能是推进当前人工智能研究范式的关键。

简而言之：利用强化学习RL进行微调是训练 ChatGPT/GPT-4 等高性能 LLM大模型的秘诀。

但是，强化学习本质上是数据低效的，而且使用人类手动注释数据集来进行强化学习的微调成本极高。有鉴于此，推进人工智能研究（至少在当前模式下）将在很大程度上依赖于两个基本目标：

1.用更少的数据使 RL 运行得更好。使用 LLM 和较小的人工标注数据集，尽可能多地为 RL 合成高质量数据。

通常，我们使用 RL 来学习一种策略，该策略会根据当前状态迭代选择最佳行动。然后，我们使用该策略不断选择下一个状态，并穿越底层环境，直到到达终点/结束状态。RL 的目的是在我们依次选择和访问每个状态时，学习一种能使我们从环境中获得的回报最大化的策略。

LLM 的 RL训练语言模型并不是 RL 的典型问题设置。不过，我们可以很容易地从 RL 的角度来理解文本生成。语言模型通过自动回归输出每个标记来运行。因此，我们的状态只是模型的当前输出。我们的策略就是语言模型，它会根据当前的标记作为输入，预测最有可能的下一个标记。奖励是人类的偏好，我们对模型进行训练，以生成最大化该奖励的文本。

2.RL 算法：利用上述设置，我们可以轻松地应用多种不同的 RL 算法对 LLM 进行微调。
例如，我们可以使用 Q-learning 来建立下一个标记预测模型，并使用查找表来预测简单词汇表中的下一个标记。

但是，存储这种查找表会非常耗费内存（最终无法实现），因此我们希望使用深度 Q-Learning 来代替查找表，用神经网络为下一个标记预测建模。

更进一步说，大多数现代研究在实践中都使用了更实用、数据效率更高的 RL 算法，如 PPO。

在哪里碰壁?
最近的研究向我们表明，使用 RL 对 LLM 进行微调（即从人类反馈中进行强化学习）是非常有效的。但是，有一个主要问题--RL 的数据效率很低，需要我们收集大量数据才能实现良好的性能。

为了收集 RLHF 的数据，我们让人类手动注释他们的偏好（例如，LLaMA-2 就是在 100 万个人类偏好注释的基础上进行微调的）。虽然这种技术效果很好，但成本极高，进入门槛也高得惊人。因此，只有拥有大量资源的组织（如 OpenAI 或 Meta）才会使用 RLHF，而日常从业人员很少使用这些技术（即大多数开源 LLM 使用 SFT，而不使用 RLHF）。

解决方案是什么？
虽然可能没有完美的解决方案，但最近的研究已经开始利用功能强大的 LLM（如 GPT-4）来自动化数据收集过程，以便利用 RL 进行微调。

这首先是由人类学机构人工智能（Constitutional AI by Anthropic）进行的探索，通过 LLM 合成有害性数据，用于 LLM 对齐。后来，谷歌提出了人工智能反馈强化学习（RLAIF），利用 LLM 自动完成 RLHF 的整个数据收集过程。令人惊奇的是，使用 LLM 生成合成数据，以便利用 RL 进行微调，效果令人难以置信。

来自 LLM 的合成数据
我们在各种研究论文中看到，使用大模型 LLM 生成合成数据是一个巨大的研究前沿。这方面的例子包括：

自我指导：LLMs可以自动生成具有LLMs的指令调整数据集（Alpaca、Orca和许多其他模型都采用了类似方法）。
LLaMA-2：在人类对少量示例进行注释后，LLMs能够为SFT生成自己的高质量数据。
Constitutional AI：LLMs可以通过RLHF和SFT使用自我批判来生成高质量的数据集，
用于对齐：我们可以通过 LLMs 完全自动化 RLHF 的反馈部分，而不是使用人类来收集反馈，并实现相当的性能。

如果我们坚持当前的下一个标记预测模式（即预训练 -> SFT -> RLHF），只使用解码器转换器，我几乎可以肯定，使用 RL 进行微调，再通过强大的 LLM 合成生成数据，将在 LLM 的民主化/改进方面发挥巨大作用。这种方法能让每个人，而不仅仅是拥有大量资金的研究小组，都能获得最前沿的训练技术！

大模型新范式：用更少数据的Q-Learning训练

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道