DeepSeek强化学习终获顶级学府认可

传统观点:学术界提供理论基础,业界推动应用落地 是,但是实际上正好反过来,业界其实创新在前,学术界才确认理论。

最近,麻省理工学院、康奈尔大学、华盛顿大学和微软研究院的学术人员开发了一个叫“通过自我对弈进行强化学习”(简称RLSP)的系统。这个系统可以教那些大型的语言模型花更多时间去解决问题。这个方法借鉴(窃书不为偷)了业界创新顶级模型,比如OpenAI的o1、o3,Deepseek的R1,还有谷歌的Gemini。

RLSP的工作分为三步:

  • 首先,模型会从人类或者其他AI的解题例子中学习(这一步叫SFT)。
  • 然后,模型会因为尝试不同的解题方法而得到奖励(这一步叫RL)。
  • 最后,系统会检查答案对不对,防止模型偷懒或者走捷径(这一步叫验证器)。

测试结果挺不错的。当RLSP用在Llama模型上时,它在MATH 500这个数据集上的得分提高了23%。

另一个阿里通义千问Qwen2-32B-Instruct的模型在AIME 2024数学问题上的得分也提高了10%。即使只是简单地奖励模型展示解题过程,这些模型也学会了一些有趣的行为,比如回头检查、尝试多种解法,还有仔细核对答案。

这些结果和Deepseek R1、R1-Zero团队的研究,以及IN.AI、清华大学和卡内基梅隆大学的研究人员的发现差不多。(并排合照)

研究团队还提到,RLSP在他们的实验里还没能产生更高级的推理能力。不过,最让人注意的发现不仅仅是测试成绩变好了,而是模型学会了怎么解决问题。即使没有特别的训练例子,只要有一点探索的奖励,模型就能针对不同的问题想出几种有用的解题方法。

研究人员认为RLSP有效的原因是:最近的研究发现,如果模型一步一步写出他们的思考过程(这叫“思路链”推理),它们就能有更多的计算能力来解决问题。RLSP鼓励模型通过“自我对弈”来创造新的推理路径,这有点像DeepMind学习下国际象棋和围棋的方式。(这是Deep系列的来源)

奖励系统鼓励模型展示所有的解题步骤,即使有些方法最后没得出正确答案。当模型通过一个比较长的推理过程找到正确答案时,它会得到全部奖励。这样就能生成新的逐步推理的例子,帮助模型改进。

网友:
专家总是在成功后追认称号,但是难以引领创新。