Q -star:思想树推理、过程奖励模型和增强合成数据?


这篇文章讨论了 Q -star的概念,这是 OpenAI 的一种新方法,被认为是通用人工智能的突破。它假设 Q-star使用思维树推理来搜索语言步骤,将它们表示为一棵树,其中每个节点都分配了一个值。

这允许使用过程奖励模型对每个推理步骤单独评分,而不是对全文评分。结合强化学习的自我对弈和前瞻规划技术,它可以通过对步骤分数进行微调来优化语言模型。

关键思想是搜索语言的“思想树”表示,使用过程奖励模型为推理步骤分配值,并利用强化学习技术根据步骤分数而不仅仅是结果分数进行改进。

模块化推理:思想树 (ToT) 提示
“深呼吸”和“一步一步思考”等推广技术现在正在扩展到通过并行计算和启发式(搜索的一些基础知识)进行推理的高级方法。

思想树确实就是它听起来的样子。它是一种提示语言模型创建推理路径树的方法,该树可能会也可能不会收敛到正确的答案。

使用推理树,可以应用不同的方法对每个顶点(节点)进行评分或对最终路径进行采样。它可以基于最一致答案的最小长度,或者需要外部反馈的复杂事物,这将我们带回到 RLHF 的方向。

生成中的细粒度奖励标签:过程奖励模型(PRM)
在过去的 6 个月里,我从 RLHF 人员那里私下听到了很多关于过程奖励模型 (PRM) 的话题。事实证明,关于这些模型的文献有很多,但关于如何将它们与强化学习结合使用的文献却很少。

PRM 的核心思想是为推理的每一步而不是完整的消息分配分数。这允许通过对最大平均奖励或其他指标进行采样,而不是仅依赖于一个分数(在本文献中,标准 RM 称为结果 RM),对推理问题进行更精细的生成。

本质上是生成一堆时间并使用奖励模型得分最高的一次(Llama 2 中流行的拒绝采样的推理时间表亲),PRM 在推理任务上优于标准 RM。

迄今为止,大多数 PRM 资源仅展示如何在推理时使用它们。当该信号针对训练进行优化时,真正的力量就会出现。为了创建最丰富的优化设置,能够生成用于评分和学习的多样化推理路径至关重要。这就是思想树的用武之地。

Q* 可能是什么
Q* 似乎正在使用 PRM 对思想树推理数据进行评分,然后使用离线 RL 进行优化。这与现有的 RLHF 工具看起来没有太大不同,后者使用 DPO 或 ILQL 等离线算法,不需要在训练期间从 LLM 生成。

RL 算法看到的“轨迹”是推理步骤的序列,因此我们最终以多步骤方式进行 RLHF,而不是上下文强盗!

鉴于我听到的谣言已经表明 OpenAI 正在使用离线 RL 来实现 RLHF(这并没有说明太多),这对我来说似乎并不是一个巨大的飞跃。这种方法的复杂之处包括收集正确的提示,建立一个模型来生成伟大的推理步骤,最重要的是:准确地对数以万计的完成进行评分。

最后一步就是传闻中的“海量计算资源”所在:用人工智能代替人类为每一步打上分数,综合数据为王,并且使用树而不是单宽路径(通过思想链),为以后提供越来越多的选择以得出正确的答案。

有传言称,我听说一个或多个大型科技公司(Google、Anthropic、Cohere 等)正在通过流程监督或类似 RLAIF 的方法创建一个预训练大小的数据集,这需要大量的计算资源来跟踪。

超大规模AI反馈数据与未来
合成数据代表了扩展数据集的最短路径。从短期来看,很明显我们可以用它创建一些有用的数据。目前尚不清楚的是它可以扩展到多大程度——即它能否完全取代互联网规模数据?.