强化学习获图灵奖,DeepSeek落地AI推理


安德鲁·巴托和理查德·萨顿因为搞出了强化学习的理论基础,拿到了2024年A.M.图灵奖。

强化学习是人工智能里好多牛掰突破的关键招数。

在强化学习里,人工智能系统得训练用“奖励”信号来完成任务,这些信号就像路标一样,告诉它们该干啥有用。

20世纪80年代,巴托和萨顿整出了一套数学技术,让这个基本想法能用到好多不同的问题上。

过了几十年,电脑算力的提升让强化学习的真本事露了出来。

2016年,谷歌的研究员用它训练了一个叫AlphaGo的人工智能系统,专门玩围棋这个棋盘游戏。最开始的AlphaGo是靠强化学习加上研究人类高手下棋的记录来学的。后来版本干脆就全用强化学习了。从AlphaGo延伸出来的人工智能系统还被改去干别的活儿。

2022年,研究人员用这种系统发现了一个新算法,能搞定矩阵乘法这种基础数学任务。

不过强化学习也有短板。它最适合那种规则清楚、目标明白的任务——这种条件在游戏和数学问题里比现实世界里常见多了。

现在研究人员正把强化学习跟其他人工智能方法混搭起来,解决这些短板。这种组合搞出了新一代的聊天机器人,能对付复杂问题,未来肯定还会带来更多惊喜。

详细解释:
安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)因为给强化学习(Reinforcement Learning)打下了理论基础,拿到了A.M.图灵奖,这个奖可是计算机领域的“诺贝尔奖”,含金量超级高。强化学习是人工智能里一个很重要的方向,简单来说,就是让机器通过试错,自己学会怎么干活儿。他们俩的贡献在于,把这个想法从一个模糊的概念变成了能实打实用的东西。

强化学习的核心是让人工智能系统像人一样,通过“奖励”来学习。比如,你教一个机器人走路,它迈一步没摔倒,你就给它个奖励信号,它就知道“哦,这步走对了”,慢慢就学会了。他们在20世纪80年代搞出了一套数学方法,叫做时序差分学习(Temporal Difference Learning),还有Q学习(Q-Learning),这些技术让机器能在不同的场景下,通过试错找到最好的行动方案。那时候电脑还不咋地,但他们的理论已经很超前了。

后来,到了21世纪,计算机算力上来了,他们的理论才真正发光发热。最出名的例子就是2016年谷歌的AlphaGo,用强化学习打败了世界围棋冠军。AlphaGo一开始是靠模仿人类高手的棋谱加上强化学习训练的,后来干脆全靠强化学习自己摸索,实力还更强了。这说明巴托和萨顿的理论不只是纸上谈兵,真能解决大问题。

生平背景
安德鲁·巴托(Andrew Barto)是马萨诸塞大学阿默斯特分校信息与计算机科学系名誉教授。1977 年,他在马萨诸塞大学阿默斯特分校开始了他的职业生涯,担任博士后研究员,随后担任过多个职位,包括副教授、教授和系主任。Barto 以优异成绩获得密歇根大学数学学士学位,并在那里获得了计算机和通信科学硕士和博士学位。

Barto 获得的荣誉包括麻省大学神经科学终身成就奖、IJCAI 研究杰出奖和 IEEE 神经网络学会先驱奖。他是电气和电子工程师协会 (IEEE) 会员,也是美国科学促进会 (AAAS) 会员。

理查德·萨顿(Richard Sutton)是阿尔伯塔大学计算机科学教授、Keen Technologies(一家总部位于德克萨斯州达拉斯的通用人工智能公司)的研究科学家以及阿尔伯塔机器智能研究所 (Amii) 的首席科学顾问。萨顿于 2017 年至 2023 年担任 Deep Mind 的杰出研究科学家。在加入阿尔伯塔大学之前,他于 1998 年至 2002 年担任新泽西州弗洛勒姆帕克 AT&T 香农实验室人工智能部门的首席技术人员。萨顿与安德鲁·巴托的合作始于 1978 年在马萨诸塞大学阿默斯特分校,当时巴托是萨顿的博士学位和博士后导师。萨顿在斯坦福大学获得心理学学士学位,在马萨诸塞大学阿默斯特分校获得计算机与信息科学硕士和博士学位。

萨顿获得的荣誉包括 IJCAI 研究杰出奖、加拿大人工智能协会颁发的终身成就奖以及马萨诸塞大学阿默斯特分校颁发的杰出研究成就奖。萨顿是伦敦皇家学会院士、人工智能促进协会院士和加拿大皇家学会院士。

强化学习的核心算法
Barto 和 Sutton 在 20 世纪 80 年代提出的时序差分学习(Temporal Difference Learning)和Q-Learning,是强化学习的核心算法。
他们的理论后来被广泛应用,比如谷歌 DeepMind的 AlphaGo,就用到了强化学习来掌握围棋。


DeepSeek-R1,尤其是 DeepSeek-R1-Zero,直接体现了这种强化学习的威力。它跳过了传统的监督微调(Supervised Fine-Tuning, SFT),完全靠大规模强化学习从头训练。DeepSeek 团队用了一种叫 GRPO(Group Relative Policy Optimization)的算法,这是他们自己改进的强化学习方法,基于传统 PPO(Proximal Policy Optimization),但去掉了价值模型(Value Model),降低了计算成本。这种方式让模型能自己摸索出推理能力,比如在数学题上一步步推导,甚至还会自我检查答案,跟 Barto 和 Sutton 强调的“通过奖励自主学习”思路一脉相承。

不过,DeepSeek-R1-Zero 也有问题,比如输出可读性差、语言混杂,后来他们加了点监督数据(冷启动数据)才搞定了 DeepSeek-R1。这也说明,纯强化学习虽然牛,但实际落地还得跟其他方法配合。

DeepSeek 是“站在巨人肩膀上”的那种。他们的强化学习理论是根基,DeepSeek 则是拿来主义加创新,在大模型时代玩出了新花样。

想更深挖的话,可以看看 DeepSeek 的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,里面有详细的技术细节。