4500美元重现DeepSeek:性能超o1-preview


伯克利团队以 4,500 美元重现 DeepSeek 的成功:1.5B模型超越 o1-preview!

RL强化学习 的魔力正在散发!我们推出了 DeepScaleR-1.5B-Preview,这是一个从 Deepseek-R1-Distilled-Qwen-1.5B 微调而来的语言模型,使用了简单的强化学习(RL)。

它在 AIME2024 上取得了惊人的 43.1% 的 Pass@1 准确率(比基础模型提升了 14.3%),仅用 1.5B 参数就超越了 OpenAI 的 o1-preview 的表现。

我们开源了我们的数据集、代码和训练日志,让每个人都能在 RL 扩展智能的道路上一起进步!

最近开源的 Deepseek-R1(一个能与 OpenAI 的 o1 媲美的模型)标志着推理模型普及化的一大飞跃。然而,它的具体训练方法、超参数和底层系统仍然没有公开。在这项工作中,我们朝着完全开放的 RL 扩展推理模型迈出了一大步。

扩展 RL 的最大挑战之一是高昂的计算成本

  • 例如,我们发现直接复现 DeepSeek-R1 的实验(⩾32K 上下文,约 8000 步)至少需要 70,000 个 A100 GPU 小时——即使是一个 1.5B 的模型。
  • 为了解决这个问题,我们利用了一个蒸馏模型,并引入了一种新颖的 RL 迭代延长方案,将计算需求减少到仅 3,800 个 A100 GPU 小时——减少了 18.42 倍!
  • 同时用仅 1.5B 的模型实现了超越 OpenAI o1-preview 的性能。

我们的工作表明,通过 RL 开发定制化的推理模型既可以扩展,又可以节省成本。在接下来的博客中,我们将详细介绍我们的数据集整理和训练方法,展示评估结果,并分享我们从研究中的关键发现。

RL 扩展在小模型上也能发挥作用
 Deepseek-R1 的研究表明,直接在小模型上应用 RL(强化学习)效果不如蒸馏法(distillation)。他们的实验结果显示,在 Qwen-32B 模型上使用 RL,AIME 得分只有 47%,而仅用蒸馏法就能达到 72.6%。很多人误以为 RL 扩展只对大模型有用。

但其实,如果从小模型用高质量 SFT(监督微调)数据,小模型也能通过 RL 学会更有效的推理。
我们的实验结果也证明了这一点:RL 扩展将 AIME 准确率从 28.9% 提升到了 43.1%!

这些发现说明,单靠 SFT 或 RL 都不够。只有将高质量的SFT 蒸馏与 RL 扩展结合起来,才能真正释放大语言模型(LLM)的推理潜力。

网友:
1、从 671b 到 1.5b.. 它不完全是 deepseek ,基础模型是提炼的 Qwen:https ://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

2、只是在推理时卸载计算的预训练,这将增加对计算加班的需求