本月三篇大模型论文简介


本月重点讨论三篇论文,它们解决了大型语言模型 (LLM) 的三个不同问题类别:

  1. 减少幻觉(本周末这里讨论的热门话题);
  2. 增强公开可用的小型模型的推理能力;
  3. 加深我们对变压器架构的理解,并有可能将其简化。

减少幻觉非常重要,因为虽然像 GPT-4 这样的 LLMs 被广泛用于知识生成,但它们仍然会产生似是而非的信息。

提高小型模型的推理能力也很重要。目前,ChatGPT 和 GPT-4(与私人或个人 LLM 相比)在许多任务中仍然是我们的首选。增强这些小型模型的推理能力是缩小开源 LLM 与当前一代专有 LLM 之间差距的一种方法。

最后,加强我们对变压器架构的理解是掌握 LLM大模型 训练动态的基础。这些知识可以帮助我们建立更简单、更高效的模型,从而提高开源模型的性能,并有可能为新的架构创新铺平道路。 

1)微调语言模型以实现事实性
语言模型(LLM)经常会产生幻觉,也就是说,它们生成的信息令人信服,但与事实不符。当使用 LLM 进行基于知识的问题解答时,这一点尤其成问题,因为这需要对回答进行人工事实检查。这一过程可能非常耗时,而且可能有悖于在某些查询中使用 LLM 的初衷。

在 "微调语言模型以实现事实性 "一文中,作者提出了使用直接偏好优化(DPO)进行微调的方法,以降低幻觉率。通过使用这种方法对 7B Llama 2 模型进行微调,他们发现与原始 Llama 2 聊天模型相比,事实错误率降低了 58%。

关于幻觉,本文没有明确讨论这个问题。不过,在深入探讨本文的讨论之前,值得考虑的是 LLM 的训练和推理机制,它提出了两个挑战。在预训练过程中,可能会出现质量较差的数据集,导致 LLM 吸收与事实不符的信息。

其次,在推理过程中,我们利用温度设置和采样方法,允许 LLM 改变句子结构,确保它不会总是生成相同的文本。这种方法可以防止模型简单地充当数据库查找器。不过,目前还没有任何机制可以保证哪些标记应该被采样或直接从训练集中提取。

直接偏好优化
直接偏好优化法(Direct Preference Optimization,简称 DPO)是研究人员在这里采用的一种值得注意的方法,它正逐渐成为人类反馈强化学习法(Reinforcement Learning with Human Feedback,简称 RLHF)的一种流行替代方法。

RLHF 是 ChatGPT、Llama 2 Chat 等软件背后的方法。

从概念上讲,DPO 比 RLHF 更简单,因为它直接根据响应-偏好排名来训练 LLM,而不是创建一个奖励模型。从本质上讲,DPO 优化的是直接根据偏好数据计算的分类损失,因此比 RLHF 更容易实现和使用。此外,DPO 最近已得到成功应用(例如,Lewis Tunstall 及其同事的 Zephyr 7B 模型似乎优于通过 RLHF 训练的更大的 Llama-2 70b Chat 模型),并正在成为最流行的微调方法之一。

消除人为贴标签的努力
与 RLHF 相比,DPO 简化了微调过程,因为它不需要创建奖励模型。不过,DPO 仍然需要生成偏好数据,通常包括从模型中抽取回应供人工进行事实检查。然后,人工标注员根据偏好对这些回答进行排序。

作者指出,对一个 LLM 响应(如知名人士的传记)进行事实检查,人类平均每个响应需要花费 9 分钟。检查 505 篇传记(本研究使用的数据集)将花费约 2000 美元。

作为人工事实核对的替代方案,作者建议采用 DPO 的变体,将人工从环路中完全移除。这种方法有点类似于 RLAIF,即带有人工智能反馈的强化学习,它与 RLHF 不同,不需要人工输入。

在 "微调真实性语言模型 "一文中,作者尝试了两种方法来创建全自动的 "真实性 "评分:

  • 基于参照的真实性评分,简称 FactTune-FS。
  • 无参照真实性评分,缩写为 FactTune-MC。

这两种方法的第一步都是获取回复数据集,如知名人士的传记,并使用 GPT-3.5 模型提取原子索赔。在方法 1(FactTune-FS)中,作者利用了现有的 FactScore 方法。他们将维基百科视为真相来源,并使用 Llama 1 7B 模型来验证原子索赔是否得到文章的支持。我认为,这里之所以使用 Llama 1 小模型,是因为它是最初的 FactScore 论文中使用的模型。

对于方法 2(FactTune-MC),作者使用 GPT-3.5 首先将原子声明转化为问题。然后,这些问题被用作具有高温设置的 Llama 1 模型的查询,使其能够生成多种不同的回复。最常见回答的频率被视为真实性得分。与方法 1 相比,FactTune-MC 的优势在于它不需要外部来源的参考文章。

然后使用真实性评分为数据集创建偏好评级,并使用 DPO 管道对模型进行微调。事实证明,FactTune-FS 在降低事实错误率方面表现优异,超过了所有其他测试方法,包括 RLHF 和常规监督微调。

局限与结论
总的来说,我认为这篇论文写得非常好,证明了 DPO 微调的实用性。虽然有些 LLM 的微调是为了减少有害性,但这篇论文也表明,我们可以利用其他目标成功地对模型进行微调。

一个小小的批评是,本文使用的数据集似乎小得出奇。另一方面,这种方法仍然能如此有效,则更令人印象深刻。好消息是,他们的方法是完全自动化的,因此很容易扩展到更大的数据集。

2) Orca 2:教授小语言模型如何推理2
论文《Orca 2:增强小型语言模型的推理能力》提出了一种有效的方法,通过使用专门的合成数据进行训练,显著提高小型语言模型(LLM)的推理能力。其关键思路是实施各种推理技术,教导 LLM 识别每个任务的最有效解决策略。

由此产生的 Orca-2-13B 模型在零点推理任务中的表现优于同类大小的模型,与 Llama-2-Chat-13B 相比有 47.54% 的显著提高,与 WizardLM-13B 相比有 28.15% 的显著提高。请注意,所有三个模型(Orca、Llama-2-Chat 和 WizardLM)都使用了相同的 Llama-2 基础模型进行微调。

此外,Orca-2-13B 还能与 LLaMA-2-Chat-70B、WizardLM-70B 和 ChatGPT 等 5-10 倍大的模型竞争。

模仿学习
过去几个月,模仿学习风靡全球。就大型语言模型(LLM)而言,模仿学习是指根据大型源 LLM(称为 "教师")(如 GPT-4)的输出结果来训练较小的目标 LLM(称为 "学生")。

这篇题为《模仿专有 LLM 的虚假承诺》(The False Promise of Imitating Proprietary LLMs)的论文指出了小型语言模型试图模仿大型语言模型的一个关键问题。虽然这些较小的模型可以模仿较大模型的风格,并创造出初看起来令人印象深刻的内容,但仔细观察往往会发现它们的输出并不准确。这意味着,尽管它们看起来运行良好,但当我们更仔细地检查它们生成的内容时,它们实际上会犯错误。

在《Orca 2》这篇论文中,作者解释说,小型语言模型(现在包括那些拥有 70 亿至 130 亿个部件的模型,在当今的标准中被认为是 "小型 "模型)不能仅仅依靠复制大型模型的做法来变得更好。他们建议采用另一种方法:教给这些小模型不同于大模型的独特的解决问题或思考问题的方法。这是因为较小的模型由于容量较小(由于参数数量减少),可能无法采用与较大模型相同的解决策略。

以 13B Llama 2 模型为起点所取得的成就令人印象深刻。我很好奇,也很想知道,当使用 70B Llama 2 或更大的模型时,这些在推理和其他基准方面的显著改进是否也会适用于定制的合成数据策略。

论文提供了一个全面的基准列表,其出色的结果不言自明。不过,一个小小的批评是,作者强调了使用较小模型根据任务选择最有效解决方案策略的重要性。然而,他们并没有针对 Orca 2 模型进行任何实验或消融研究来探讨这方面的问题。唯一的证据是,Orca 2 模型(即在精心策划的合成数据组合上训练的 Llama 2 模型)的表现优于通过其他方法微调的 Llama 2 模型,包括较大的模型。

从积极的方面来看,值得注意的是,这些结果完全是通过在精心策划的合成数据上进行监督微调取得的。Orca 2 模型没有经过任何 RLHF 或 DPO 微调。RLHF 或 DPO 微调有可能进一步改进这些模型,这也是未来研究的一个有趣课题。

3) 简化变压器块
在 "简化变压器块 "一文中,作者探讨了如何在不影响收敛特性和下游任务性能的情况下,简化对 LLM 至关重要的标准变压器块。

根据信号传播理论和经验证据,他们发现可以移除许多部分,以简化类似 GPT 的解码器架构以及编码器式 BERT 模型:

  • 跳转连接
  • 投影和值参数
  • 顺序注意和 MLP 子块(支持并行布局)
  • 规范化层(LayerNorm)

作者用相对较小的模型进行了实验,虽然没有理由相信这些发现不能推广到更大的语言模型中,但目前还没有这方面的经验证据。我并不责怪作者没有进行这样的实验。相反,我对这个由两位作者组成的团队所做的工作印象深刻,它是我今年读过的最喜欢的论文之一。他们还出色地引用了大量相关著作,为他们的实验提供了动力。仅从参考文献来看,我绝对推荐阅读这篇论文。

在我看来,修改建议的主要好处之一是更好地理解和简化变压器架构。不过,作者还报告说,训练吞吐量提高了 15%,对参数的要求降低了 15%。

我希望拥有更多计算资源的大型研究实验室也能发现这项工作的有趣之处,并将这些见解应用到新的架构中(当然,最好能分享他们的见解和成果)。我很想知道这些修改是否也适用于大型 LLM。