强化学习:AI推理游戏的颠覆性突破引擎


强化学习正在改变一切,从人工智能的思维方式到科技巨头数十亿美元的基础设施:AI基础设施瓶颈与变革、蒸馏、数据是护城河、递归式自我提升、o4 和 o5 强化学习训练!

Semianalysis写了一篇很长的文章,解释了为什么模型可以突然连贯地工作很长时间,这对未来意味着什么,以及它是如何工作的。以下是关键方面的总结:

当全世界都在谈论 ChatGPT 时,一场颠覆整个人工智能行业的革命正在暗中进行。

强化学习RL是 OpenAI 的 o3 等模型能够突然解决复杂数学问题并连续工作数小时的真正原因。过去只适用于国际象棋和围棋的强化学习技术,如今正在改变机器学习思考的方式。这一发展将耗资数十亿美元,并颠覆科技巨头的整个基础设施。

目前人工智能的突破并非基于更大的语言模型,而是基于强化学习。像 OpenAI 的 o3 这样的模型是通过强化学习来训练的,在强化学习中,每个问题都会产生数百次回答尝试,并对正确的解决方案给予奖励。在数学和编程等可验证的任务中,性能的大幅提升显而易见--高难度编码测试的成功率翻了一番,而成本却下降了。 

Qwen 只需要 4000 对精心挑选的问题和答案就能取得明显的改进,但这背后是巨大的数据生成计算能力。


强化学习的工作原理
强化学习 (RL) 的概念很简单。强化学习模型会从任意环境中的当前状态获取信息,生成一组选择某个动作的概率,然后执行该动作。该模型的目标是实现目标,并由“奖励函数”定义。强化学习是指通过改变模型权重,使生成的概率最高的概率更有可能获得更高的奖励。

强化学习并非新鲜事物。RL 是一项较老的技术,早于大型语言模型的出现。例如,它是围棋和国际象棋系统背后的技术基础。然而,RL 最终应用于 LLM 等通用技术,这对能力和技术传播都具有重大影响。

强化学习RL 解决了以往人工智能系统的根本问题:它们现在可以从错误中学习,并有针对性地改进自己的行为。与使用固定数据集进行训练的传统方法不同,系统会不断尝试新的解决方案,并获得更好的结果。这首次实现了真正的 "思考"--模型可以形成更长的思维链,解决复杂的多步骤问题

OpenAI 已经将带有评估网格的人工智能评委用于写作或战略制定等不可验证的任务,这意味着 RL 在创意领域也能发挥作用。

这一发展正在从根本上改变整个人工智能领域。拥有自己用户数据的公司现在可以训练定制模型,而无需在基础模型上花费数十亿美元。基础设施需求正从集中式训练集群转向分散式推理网络,因为 RL 在很大程度上依赖于推理性能。由于芯片出口限制,中国可能会落后,而西方实验室则正在全面反思其数据中心战略。

更长时间的任务成为可能--从几分钟到几小时的工作,实现真正的代理人工智能(智能体)。

强化学习是近几个月来人工智能飞速发展背后的秘密革命。

当所有人都在讨论更大的模型时,很少有人明白真正的创新在于学习过程。RL 使人工智能系统首次不仅能复制模式,还能真正思考和改进。掌握这项技术的公司将在下一个十年中占据主导地位--因为它们不仅要打造更好的聊天机器人,还要打造能解决复杂现实问题的数字工作者。

自我完善已然存在:
Anthropic 对编译器开发、内核工程,甚至四元组的 RL 进行了评估:“我们已经谈到了通过更好的模型在 RL 期间成为更好的法官来实现自我完善,但还有一个重要的方面需要考虑。我们的想法是,模型本身有助于训练和编码下一个模型。Claud 4 系统卡让我们具体了解了实验室的想法。”

强化学习和“可验证的奖励”
强化学习(RL)就像教AI玩游戏:你给它个目标(比如赢棋),它试着干活儿,干得好就给“糖”(奖励),干得烂就“批评”它(扣分)。AI慢慢学会咋干最好。但这得有个前提:你得清楚啥是“好”,啥是“烂”,也就是得有可验证的奖励。

啥叫可验证的奖励?比如编程:代码跑对了,程序就能用,这是“好”(奖励+1);跑错了,程序崩了,这是“烂”(奖励-1)。数学也一样,答案对错一目了然。这种任务的奖励清清楚楚,AI学起来得心应手。

OpenAI的例子:从GPT-4o到o1OpenAI用强化学习把GPT-4o“升级”成了o1。o1在编程、数学这种“可验证”任务上特别牛,因为这些任务的“对错”很明确,AI能靠着奖励信号快速优化。o1就像个学霸,考试题有标准答案,它就能拿高分!

新领域:工具使用OpenAI的o3更猛了!它能看图、放大细节、跑计算、推理,最后给答案。比如,你给张照片,它能猜出这照片在哪拍的(比如“这是巴黎埃菲尔铁塔”)。这任务技术上也能验证(拍的地方对不对),但以前没专门练过,o3却能搞定,说明强化学习开始“开疆拓土”了!

强化学习的瓶颈:为啥没全面开花?
虽然强化学习在编程、数学、工具使用上很牛,但为啥实验室不把它用得更多?为啥没把强化学习的计算能力堆到跟预训练(pre-training)一样高?咱们来挖挖瓶颈:

奖励函数不好定强化学习要靠“奖励”引导,但很多任务的奖励不好定义。比如:

  • 写篇文章,咋算“好”?有人觉得文笔优美是好,有人觉得内容深刻是好,没个统一标准。
  • 聊天机器人咋算“聊得好”?用户开心?回答准确?还是不惹人生气?这些都太主观,奖励函数写不下来。这种“不可验证”的领域,强化学习就抓瞎了,因为AI不知道往哪使劲。

计算成本高得吓人强化学习比预训练费劲多了!
预训练:AI看一大堆数据(比如网上的文章、代码),学语言规律,算是个“死记硬背”的过程。
强化学习:AI得一遍遍试错,像玩游戏闯关,得实时算奖励、调整策略。这需要超级多的算力,GPU得烧到冒烟!OpenAI现在烧钱都烧50亿了,再把强化学习的计算量堆到预训练的级别,钱包得哭晕在厕所。

数据效率低
强化学习需要AI自己“试错”来学,效率低得像用手挖隧道。预训练靠现成数据,相当于“抄课本”,快多了。尤其在不可验证的领域,试错的成本更高,AI可能试了几万次还不知道啥是对的。
模型架构的限制现在的AI模型(像GPT系列)是基于Transformer架构,擅长“预测下一个词”,但不一定适合强化学习的“试错”逻辑。强化学习可能需要专门的架构,或者跟预训练模型的“混搭”还没调好。

实验室偏见:
预训练是大头现实里,AI公司(包括OpenAI)把大部分钱和精力砸在预训练上,因为这能快速提升模型的“广度”(啥都会点)。强化学习更像“精修”,得针对特定任务花心思,回报周期长,实验室自然不舍得投太多。

不可验证的领域能解决吗?
“不可验证”的领域(比如写诗、聊天、画画等文科领域)奖励不好定,强化学习咋整?

随着该领域的发展,工具使用等新领域正在涌现。

OpenAI 的 o3 可以放大图片,推理所见内容,运行一些计算,进一步推理,然后给出答案。这解锁了一系列模型现在可以很好地完成的任务,例如识别照片的拍摄位置。这样的任务在技术上是可验证的,但之前并未进行过专门的训练。

然而,尽管取得了惊人的进展,实验室在强化学习上的投入通常很少,尤其是相对于预训练的投入而言。使强化学习计算能力达到甚至超越预训练的瓶颈是什么?不可验证的领域会得到解决吗?

强化学习是推理密集型的
研究最流行的强化学习算法之一,有助于我们了解强化学习的推理能力究竟有多强。组相对策略优化 (GRPO) 是一种常用算法,DeepSeek 正是用它训练 R1 的。 

在 GRPO 中,模型会被要求回答一个问题。模型会针对该问题生成多个答案。每个答案都可以理解为一次“rollout”,本质上是模型试图找到解决方案的过程。换句话说,“rollout”是模型为生成答案或解决问题而进行的一次单独尝试。每个问题的 rollout 次数可以从几次到数百次不等。

没有技术限制,但使用的 rollout 次数越多,占用的内存和计算资源就越多。由于每个问题都会生成大量答案,这导致强化学习推理变得繁重。

这一点意义重大,我们将在报告中的几个部分进行探讨。

然后,模型会根据基本事实进行评分。具体来说,在 GRPO 中,每个答案都会获得一个奖励分数。正确性并非唯一因素,奖励函数也确实可以通过多种方式进行调整,但其他因素还包括格式和语言一致性。

计算奖励后,模型会通过梯度下降进行更新,以增加生成更有可能获得正奖励答案的答案的概率。

GRPO 是近端策略优化 (PPO) 的一个变体,它消除了对评价模型(在 PPO 中用于预测未来奖励)的需求,从而提高了内存效率。PPO 和 GRPO 都可以使用学习到的奖励模型或基于规则的奖励系统来判断答案质量。由于内存需求较低,GRPO 在开源社区中得到了广泛的采用,但我们预计实验室会继续使用 PPO 的变体。PPO 由 OpenAI 发明,目前实验室内部可用的版本与 GRPO 经常被拿来比较的公开版本存在实质性差异。实验室面临的计算限制也更少。

其核心思想是,强化学习通常需要一个问题、一个用于检验的答案,以及一种向模型发出信号,告知其行为应如何改变的方式。模型探索答案的方式可能多种多样,但它需要以不同的rollout形式生成多个答案,因此对推理方面要求很高。之后,模型会进行更新,以提高正确答案的可能性,因此也存在隐式的训练环节。

奖励函数很难定义
如上所述,可验证奖励取得了长足的进步。其中一个原因是奖励函数易于定义。这道数学题的答案要么正确,要么错误。然而,从技术上讲,奖励函数可以是用户想要优化的任何内容。

从概念上讲,强化学习下模型的主要目标是最大化总奖励。例如,如果训练一个模型下国际象棋,它的主要目标是在不违反任何规则的情况下赢得比赛。该模型可以下国际象棋,并通过在不同情况下找出哪些走法有助于获胜来不断改进。模型可以通过其运行的环境获得反馈。我们稍后会深入讨论这一点,但在国际象棋的例子中,它可以被认为是模型可以与之交互的棋盘和棋子。  

为更细粒度的任务定义奖励函数曾被描述为一门“暗黑艺术”,因为很难做到准确。即使在清晰的环境中,设置正确的奖励函数也需要大量的研究、测试和优化。

芯片设计就是一个例子。AlphaChip 是谷歌设计的一个用于辅助芯片设计的模型,并经过强化学习 (RL) 训练。该模型辅助了谷歌使用的 TPUv6 芯片的设计,将 TPUv6 的线长缩短了 6.2%。在这种情况下,奖励函数被明确定义为:见论文Mirhoseini 等人,这就引导模型最小化重要因素:线长、拥塞和密度。需要注意的是,即使对于一个相对简单的奖励函数,设置起来也并非易事。拥塞和密度都有标量值来调整其重要性(用 Alpha 和 Gamma 表示)。这些值是经过大量实验后得出的,基于工程师想要做出的权衡,最终确定线长是最重要的因素。  

如何在不可验证的域中设置奖励?
不可验证的领域包括写作或策略等没有明确正确答案的领域。有人质疑强化学习是否真的能够应用于此类领域。我们认为可以。事实上,这已经有人实现了。

这需要改变奖励机制,不再依赖形式化验证器进行检查,而是使用其他模型根据评分标准来判断答案是否正确。

OpenAI 使用强化学习来改变模型行为,这不像数学那样清晰易懂。OpenAI 的审议性校准论文在其流程中使用强化学习,以确保模型在使用大模型 (LLM) 作为评判标准和评分标准的情况下,更安全、错误拒绝更少。此外,该流程仅使用了合成数据。如前所述,他们还发现这种方法“能够在分布外的安全场景下实现强大的泛化”。这种基于不可验证方法的强化学习形式已应用于 o1、o3-mini 和 o4-mini 的训练中,并将继续用于未来的推理模型。

推理能力不仅有助于数学运算,也有助于完成许多其他任务,包括不可验证的任务。例如,在很多情况下,推理能力帮助模型更好地区分哪些情况需要拒绝,哪些情况不需要拒绝。然而,不可否认的是,在不可验证的领域,某些因素也比其他因素更重要。例如,模型人格会严重影响写作风格。  

不可验证领域的强化学习也更加不稳定——GPT-4o 的谄媚行为部分源于 OpenAI 对用户偏好数据进行强化学习。这是一个善意的奖励函数导致不良行为的例子。  

RL 帮助你做得更好
改进模型的强化学习可以直接增强强化学习过程本身,从而形成有益的反馈循环。这是因为如上所述,LLM 评委通常使用评分标准来提供强化学习信号。使用推理模型作为 LLM 评委意味着该模型能够更好地理解评分标准,并能够更好地辨别给定答案中的细微差别。

OpenAI 的深度研究也被誉为不可验证领域因强化学习而取得进展的典范。实际上,OpenAI 除了使用不可验证任务外,还使用了带有基本事实答案的可验证任务。需要理解的是,与前面的例子一样,不可验证任务由另一位大模型(LLM)根据评分标准进行评判。

阿里巴巴的 Qwen-3 也采用了 LLM 作为评判者的做法,它利用大量合成数据并结合 LLM-Judges 在没有参考答案的情况下提供信号。  

我们认为该评分标准可以开拓大量领域。另一个例子是,OpenAI 展示了模型在各种医疗保健任务上的表现。OpenAI 召集了 260 多名医生编写评分标准,用于评判模型在评估反应时可以使用的评分标准。

奖励黑客
如上所述,设置正确的奖励可能很困难,因为模型可能会误解目标并以非理想的方式进行优化。当模型利用环境或奖励结构的漏洞来获得高分,而实际上并未完成预期任务时,就会发生奖励黑客攻击。奖励黑客攻击早已被认为是一个重大问题,尤其在 2016 年由 Dario Amodei(现任 Anthropic 首席执行官)等研究人员强调。例如,一个机械臂因将红色积木放置在蓝色积木上方而获得奖励,但它却将红色积木倒置而不是正确堆叠,从而利用了奖励。这是因为奖励是根据积木底面的高度来判断的。

在大模型 (LLM) 的案例中,Claude 3.7 Sonnet 表现出了奖励黑客攻击 (Reward Hacking) 现象,它通过修改测试用例而不是改进代码来通过原始测试。例如,第三方评估人员发现,Claude 会直接编辑“测试”文件以使所有测试都通过,而不是编写代码来通过原始测试。Anthropic 发现了这个问题,虽然他们实施了部分缓解措施,但这种模式在 Claude 3.7 中仍然可见。

虽然这些案例很有趣,但问题在于,工程师们总是无法准确描述奖励函数,或者只有在代理发现错误后才发现环境中的错误。许多此类奖励黑客攻击的案例都是设计者从未考虑过的路径,虽然在训练过程中可以进行迭代,但对于LLM来说,这很难做到。虽然机器人环境在目前的开发初期更容易调整,但大型语言模型拥有庞大而复杂的动作空间,这使得奖励黑客攻击更难以预防。

解决奖励黑客攻击对所有实验室来说都至关重要,并将借鉴安全导向团队的诸多想法。这再次证明了以安全和协同为重点的努力有助于推动企业和公司采用。

在 Claude 4 版本中,Anthropic 通过改进环境、明确奖励信号以及实施主动监控,显著减少了奖励黑客攻击。这并非一项简单的任务,需要大量的专业知识和技能。

但强化学习和奖励黑客攻击并非唯一的瓶颈,基础设施本身就是一个巨大的瓶颈。这首先要从强化学习所需的数据说起。

数据和样本效率 
乍一看,强化学习似乎非常具有样本效率:在训练 Qwen 模型的“推理强化学习”阶段,查询-答案对的数量不到 4000 对。这使得其性能相对于基础模型有了显著提升,并声称其样本效率很高。  

然而,实际情况却更加扑朔迷离。这 4000 个问答对中的每一个都有非常严格的要求:它们不应该在模型的冷启动阶段(训练的先前阶段)使用过,必须尽可能具有挑战性,涵盖广泛的子领域,同时也要在模型的能力范围内。

这些要求并非微不足道。生成合适的合成数据需要大量的筛选和反复的模型推理。此外,要求问题既要具有挑战性,又不能对模型过于挑战,这需要通过实验和验证,确保问题符合这个狭窄的范围。在某些情况下,如果数据不是合成生成的,实验室会招募 STEM 博士来帮助编写对模型具有足够挑战性的问题和答案。这些博士还会被招募来为大模型 (LLM) 评委撰写参考评分标准。

ScaleAI、Mercor 和 Handshake 等公司现在从人工智能实验室获得了大量业务,以协助这一招聘过程。

Qwen 进行了强化学习的另一阶段。为了最大程度地展现其高效性,他们没有透露下一阶段的样本数量。这是因为样本数量远超 4,000。

在这个阶段,他们在 20 多个不同的领域进行了强化学习。他们还使用了所有三种类型的奖励模型(基于规则的、有和没有真实答案的 LLM-judge 模型)。这需要复杂的工程和计算。

从长远来看,我们期望实验室能够在数百个专业领域开展强化学习,以显著提升模型性能。质量比数量更重要——模型会根据训练数据进行精准优化——因此,仔细选择和筛选这些数据至关重要。

因此,虽然使用的样本量为 4,000 个,但需要大量的计算才能达到这个数字。可以说,强化学习在数据方面是样本高效的,但在计算方面肯定是样本低效的。与预训练相比,强化学习需要更庞大的工程团队才能有效地进行设置。

数据是护城河
最终,Qwen 传递的信息是,高质量数据是扩展强化学习(RL)不可或缺的重要资源。高质量数据有助于生成足够清晰的强化学习信号,使模型能够更好地完成所需的任务。生成此类数据通常需要大量的推理。

更广泛地说,公司或企业可以聚合自己的数据,并使用 OpenAI 的强化微调 (RFT)等服务。RFT 允许使用自定义评分器,并允许企业根据评分器或数据的结果更新模型。我们认为,这是一个被低估的版本,即使不考虑模型的进一步发展,也​​可能产生巨大的影响。

事实上,拥有一款能够聚合或收集用户行为的产品非常有价值,因为它最终是最重要的数据集。一个有趣的含义是,拥有用户数据的人工智能初创公司可以构建自定义强化学习模型,而无需投入大量计算预算来合成数据。如果企业能够搭建合适的强化学习环境,那么企业定制模型的时代或许会到来。相比于基础模型的持续发展,企业微调模型通常都失败了。

chatgpt之父伊利亚认为训练数据已经用完

智能体代理任务的时间范围正在增加
现在,模型能够保持更长时间的一致性。更长期的任务需要能够长期可靠运行的环境和基础设施,这进一步提高了工程需求。

独立编码任务的翻倍趋势为7个月,但我们预计编码以外的任务的翻倍时间会更快。OpenAI的深度研究是首个能够连贯工作超过几分钟的模型,我们预计其上限将显著且快速地上升。

然而,这里存在着一个矛盾。代理任务具有极高的经济价值,但由于其复杂性和资源密集性,给强化学习带来了巨大的挑战。

任务持续时间的延长意味着每次 RL 迭代也需要更长的时间,从而减慢整个训练过程。

”计算机使用Compute use“就是一个例子,它说明了长期任务的诸多问题。首先,作为一项代理任务,它更接近现实世界的问题和行为,这带来了新的挑战。在使用计算机的情况下,代理会遇到许多反机器人网页脚本、验证码以及晦涩难懂的 Cloudflare 保护功能。这种情况发生得相对零散。诸如此类的细节为环境增加了另一层以前不存在的调试。使用计算机需要大量的基础设施,例如虚拟机和浏览器连接。除了满足之前讨论过的环境工程要求外,这些现在还需要保持稳定并长期运行。

”计算机使用“任务通常会持续数小时。这意味着部署时间会变得更长,奖励也会变得更稀疏。换句话说,代理执行了十倍以上的步骤,但只获得了最后一个令牌的奖励。这使得 RL 信号变得更弱。计算机使用还依赖于图像和视频来向模型展示正在发生的事情。虽然有人尝试通过流式传输 HTML 文件或设置网页的文本表示来实现计算机使用,但模型无法理解图像在这种背景下代表什么。使文本表示能够发挥作用将减少计算机使用的内存需求。


环境计算
我们看到,在环境计算(而非仅仅强化学习计算)方面的投资潜力巨大。例如,一个高度逼真且难以获得奖励的黑客环境,可以同时使用数十或数百个 CPU。这是一个全新的、具备扩展潜力的领域。由于信号清晰,逼真度可以带来惊人的性能提升。

未来,这些环境也将在模拟现实世界数字孪生的 GPU 上运行。值得注意的是,这些 GPU 的需求有所不同,它们仍然具备图形/渲染功能,例如 RTX Pro GPU 或客户端 GPU。AI 专用 GPU 和 ASIC(例如 H100、B200、TPU、Trainium 等)缺乏重要的图形/渲染相关硬件。因此,大量资源被投入用于构建用于强化学习环境(而非其他地方描述的常规强化学习环境)的 AI 世界模型。这将使扩展变得更加容易,否则,由于各种异构类型的软件和硬件,环境复杂性将激增。

可靠、可扩展且易于实施的环境将面临极大的需求,我们预计这将成为初创公司蓬勃发展的领域。目前已有多家初创公司启动。某些功能的瓶颈并非来自模型能力(o3 足够智能,可以完成大多数任务),而是来自与世界互动和收集上下文的能力。

我们认为这对于人工智能在科学领域的应用尤其令人兴奋——例如,可以设置与实验室中任何可测量事物相连接的环境。这样的设置将使人工智能代理能够控制物理世界,并在接收来自环境的反馈时操纵和改变各种因素。在某些情况下,例如控制熔炉的温度,反馈循环可以相对较快,模型可以快速迭代。

然而,在其他实验耗时较长的宝贵任务中,模型需要具有匹配的相干时间。再加上需要多次部署,这可能会导致计算和物理上的设置要求非常高。

在生物学、半导体制造和其他材料科学领域,重要的是要考虑模型运行和测试的推广/消融的反馈回路。这些生物、制造和工业过程的运行速度和验证速度是有限的。

某些领域需要更长时间才能让强化学习计算产生效果,而其他领域则会由于快速反馈循环而迅速变化。物理人工智能的反馈循环本质上比数字世界更慢,因此需要真正强大的数字孪生环境。

RL 改变了硬件和数据中心建设的平衡
用于 GB200 和 GB300 的 Nvidia NVL72 系统在推理领域取得了重大进展。提升的计算能力能够以更低的延迟实现更高的吞吐量,而共享内存则能够扩大世界规模,从而将 KV 缓存分散到各个区域。这不仅能够在推理阶段更好地批量处理推理模型,而且对强化学习 (RL) 也具有重大影响。

对于强化学习来说,增加的内存可以实现许多不同的功能。首先,它允许针对给定问题进行更多部署。此外,它还能更好地处理长线代理任务。第三,它能够更好地容纳更大或更具推理能力的模型作为判断,这对于不可验证领域尤其有用。第四,这种范式高度依赖于合成数据的生成和过滤,而这又依赖于推理,而 NVL72 系统在这方面非常擅长。但利用率不足是这一过程中的一个难题。

对于在线强化学习,最后一个 rollout 的完成时间与第一个 rollout 的完成时间之间可能存在时间差。对所有不同的采样副本进行负载平衡非常困难。由于不同的采样器和训练器采用不同的拓扑结构,权重的广播也可能导致严重的利用率不足。

强化学习的所有阶段都需要推理,但推理并不需要像训练前时代那样集中化。强化学习需要大量的计算,但不需要位于同一位置。  

例如,一个领域的合成数据可以在一个数据中心生成和验证,但训练过程可能在另一个完全不同的数据中心进行。随着强化学习在计算领域的主导地位,我们可能会看到数据中心建设的转变。虽然预训练扩展仍然需要最大的多GW数据中心,但强化学习的去中心化程度如何目前尚无定论。

与一次性占用数万个 GPU 的预训练不同,强化学习专用的推理时间可以根据容量进行调整。这意味着实验室现在可以在非高峰时段利用 GPU,例如在其强化学习流程中生成合成数据。

事实上,我们知道至少有一家实验室正在利用未充分利用的推理集群,并运行此流程,以便通过合成数据生成有效地将免费计算资源交付给训练。在实验室中,推理和训练之间的界限将继续模糊,从而能够为模型提供更多计算资源,而不仅仅是最大的训练集群。这些未充分利用的计算资源实际上被免费交付给训练,因为推理集群需要根据峰值需求进行配置。

Prime Intellect 在其Intellect-2 模型中展示了 RL 的分散性,该模型是针对推理模型的全局分布式 RL 运行。

在硬件设计方面,推理能力的增强和长远代理任务使得内存变得更加重要。强化学习比预训练使用的 FLOP 更少,但仍然需要大量的内存。长远来看,硬件开发将会随之改变,以适应这一变化。这包括网络拓扑等其他因素。我们认为强化学习改变的不仅仅是硬件设计,它还在改变研究的组织方式。    

语言模型的强化学习是推理真正融入训练过程的首批案例之一。推理性能现在直接影响训练速度。这意味着生产级推理(快速、高效、廉价)现在已成为模型训练过程中不可或缺的一部分。

之前,每个实验室都会区分“产品服务推理”和“内部推理”(例如,用于评估)。但考虑到强化学习所需的海量推理,在训练栈中直接构建高度优化的推理栈至关重要。

我们在公司结构中看到了这种现象。OpenAI 合并了研究和应用研究推理团队。同样,Anthropic 和 Google 也因此对其生产和内部团队进行了大规模重组。

强化学习是一种推理游戏
从中期来看,中国的生态系统仍将受到计算能力的限制。H20 和 H20E(H20 的变体,拥有更大的内存)的禁令严重阻碍了推理能力,而推理能力对于强化学习至关重要。正如我们之前提到的,H20 的推理性能优于 H100。

除了部署新模型的速度较慢之外,中国公司还将面临向客户提供新模型的问题。DeepSeek 应对约束的方式是以极慢的速度(每秒 20 个令牌)提供模型,这会影响用户体验,并尽可能多地批量处理响应。这可以最大限度地保留计算资源供内部使用。DeepSeek 目前尚未在生产环境中使用华为 Ascend 芯片,仅使用 Nvidia 芯片,因为它具有更好的性能和体验,但他们将开始使用。

其影响不容小觑。这项禁令让中国错失了数百万芯片。

华为正在积极拓展Ascend 910B和910C系列芯片的普及。华为Ascend系列芯片的主要客户是阿里巴巴和字节跳动,这两家公司都已购买华为芯片,并深度参与了下一代芯片的研发过程,为后续版本的研发提供反馈。

除了华为通过规避出口管制从台积电获得 290 万颗芯片之外,我们还看到中芯国际国内产量大幅增长,我们目前估计 2025 年国内将生产 38 万颗 Ascend 910C,明年随着产量提高以及中芯国际北京 N+2 晶圆厂和上海晶圆厂上线,国内产量将达到数百万颗。

字节跳动和阿里巴巴也都在开发自己的定制芯片,我们正在加速器模型中密切跟踪这些芯片。  

RL 允许频繁更新模型
预训练机制与现有机制的一个区别在于,强化学习可以在模型发布后进行。这意味着模型发布后,可以继续进行强化学习以扩展其功能,然后再次更新模型。这种迭代开发可用于逐步扩展现有模型。这正是新版 DeepSeek R1 所实现的。

这对于后期训练来说通常都是正确的——当前的 GPT-4o 已经更新多次,并且不再比最初发布的 GPT-4o 模型更长。

我们预计,由于新范式的出现,Anthropic 将对其 Claude 模型发布比以前更多的更新。  

为什么o3会产生幻觉
o3 虽然在查找和研究方面能力出色,但却因容易产生幻觉而臭名昭著。该模型经常会编造一些事情。随着强化学习计算能力的扩展,这个问题变得更加严重。为什么会发生这种情况?

我们认为这可以追溯到这些模型的训练方式。模型通常只因正确的结果而获得奖励,而不会因错误的推理而受到惩罚,这使得它们能够通过有缺陷的逻辑实现准确性。

例如,一个模型可能在一个简单的棋盘游戏中获胜,尽管它误解了规则,错误地认为其有缺陷的推理是可以接受的。这不仅不会因为模型的错误思考而受到惩罚,反而会积极地奖励它们。

我们预计这种行为不仅仅适用于棋盘游戏。这会无意中教会模型在新的、未经训练的场景中产生幻觉,将错误的推理扩展到更广泛的情境中。使用推理模型作为裁判会在一定程度上有助于解决这个问题,因为它们可以纠正整个推理轨迹。其他想法包括更具体的奖励信号,对每个标记进行不同的奖励,惩罚错误的逻辑,同时奖励正确的答案。  

需要明确的是,这种不正确的奖励行为可能会对代码等方面产生影响。一个模型即使写出了糟糕的代码,仍然能够通过单元测试。这更加强调了拥有正确奖励函数的必要性。