阿里Qwen经强化学习逼近顶尖推理水平


我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后,性能显著提升,接近前沿水平且成本更低。仅需16个训练示例,性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法,所有资源免费开放。点击标题见原文。

我们开始研究一些小型的、开放权重的语言模型,看看它们能不能通过强化学习达到顶尖的推理水平。我们用了一些特别选的参数和GRPO方法,训练了Qwen 14B和32B模型,让它们解决一个叫Temporal Clue的难题。结果,这些模型的推理能力大大提升,几乎达到了最先进的水平,而且成本还低了很多。我们的研究显示,强化学习在训练开放模型处理复杂推理任务方面有很大的潜力。

还有一个特别让人兴奋的发现:我们只需要16个训练例子,就能让模型的性能提升10-15%。这意味着你不需要很多数据就能开始,只要对问题有一定的理解就行。

在这篇文章里,我们会讨论怎么用组相对策略优化(GRPO)方法,超越R1、o1、o3-mini模型,在推理密集的游戏“时间线索”中接近Sonnet 3.7的水平,同时运行成本降低了100多倍。我们还会分享我们在任务设计和超参数选择上的经验,以及我们基于torchtune构建的训练方法。

背景:
自从OpenAI去年推出了强大的o系列推理模型后,我们看到用强化学习训练的大型语言模型(LLM)进步很快。

Google DeepMind、阿里巴巴、DeepSeek和Anthropic等领先的组织也迅速跟进,训练了自己的先进模型,用长“思维链”(CoT)进行推理,并在可验证的问题上教授强化学习。

很多以前很难的基准测试(比如数学和编程)现在都快被这些模型解决了。

但是,尽管有这些令人印象深刻的进步,逻辑推理对现在最好的模型来说还是很难。通常,LLM很难一直关注所有相关细节,保持逻辑上合理的推理链,或者可靠地连接多个推理步骤。即使是最先进的模型,输出时间也比传统模型长10到100倍,还经常犯一些人类解题者很容易发现的基本错误。

我们对这个问题很好奇,于是开始研究:小型的开放权重模型能不能用最新的强化学习技术达到顶尖的推理水平?我们从一些比较弱的模型开始,在一个新的推理任务上反复训练它们。随着时间的推移,我们发现它们的推理能力明显提高,最后甚至超过了一些最强大的专有模型。

现在我们很高兴分享我们的发现,包括我们的实验、训练方法、数据集和模型权重,所有这些都可以在MIT许可下免费获得,还有关键的实践见解(就在这里)。拿起你的放大镜,侦探;游戏开始了!