英伟达用新训练方法改进了Llama模型

Nvidia 推出了一种新的大型语言模型,该模型在对齐基准测试中的表现优于其他模型。该公司通过结合评估和偏好模型的特殊训练程序实现了这一目标。

新模型名为 Llama-3.1-Nemotron-70B-Instruct,基于 Meta 的开源 Llama 3.1 模型。Nvidia 通过结合不同的训练方法对其进行了优化,以便为用户查询提供有用的答案。

然而,结果仅表明答案更符合人类偏好,而不一定意味着内容更准确。事实上,Nemotron 变体在测试事实知识的MMLU Pro 基准测试中的表现略差于基础模型。

Nvidia 创建了两个新的训练数据集:HelpSteer2 和 HelpSteer2-Preference。

  • HelpSteer2 包含超过 20,000 个提示-响应对。多个注释者根据有用性、正确性和连贯性等标准,按 1-5 的等级对每个响应进行评分。
  • HelpSteer2-Preference 添加了对同一提示的两个答案之间的比较。注释者指出他们更喜欢哪个答案以及他们的偏好程度。

结合奖励模型
Nvidia 使用这些数据集训练了两种类型的奖励模型:回归模型和 Bradley-Terry 模型。

  • 像 SteerLM 这样的回归模型会学习为各个响应分配不同标准的值。
  • Bradley-Terry 模型会从偏好比较中学习,以最大化两个响应之间的奖励差异。

研究人员发现,将两种方法结合起来会产生最佳效果。他们首先使用仅有用的评分来训练 SteerLM 回归模型。然后,该模型作为缩放的 Bradley-Terry 模型的起点,该模型还考虑了响应之间的偏好强度。

为了将语言模型微调到所学的奖励,Nvidia 使用了 REINFORCE 算法。该团队表示,与常用的 PPO(近端策略优化)不同,REINFORCE 可以更稳定、无偏差地估计动作的价值。

提高帮助程度并延长回复时间

  • 最终的 Llama-3.1-Nemotron-70B-Instruct 模型在多个基准测试中均名列第一:Arena Hard、AlpacaEval 2 LC 和GPT-4 -Turbo MT-Bench。它的表现优于 GPT-4 和 Claude 3.5 Sonnet 等顶级模型。
  • 在 Arena Hard 中,它的得分为 85.0,远远领先于起始模型 Llama-3.1-70B-Instruct 的 55.7。

Nemotron 通过草莓测试
在具体应用中,改进显而易见。例如,Llama-3.1-Nemotron-70B-Instruct 可以通过逐个浏览字母并计算“r”的数量来正确回答“草莓中有多少个 r?”这个问题。原始模型和商业竞争对手经常会给出错误的答案。

Nvidia 强调,新模型展示了提高通用应用实用性的技术。但它尚未针对数学等专业领域进行优化。

Llama-3.1-Nemotron-70B-Instruct 模型可在HuggingChatNvidia上免费测试。