强化学习：让机器从犯错中学会思考和行动

AI 智能体：不只是会“聊天”，还要学会“思考”和“行动”

现在的 AI 可不只是会陪你聊天、写作文那么简单了。那些酷炫的 AI 公司，为了让 AI 变得更聪明、更靠谱，不再仅仅满足于让 AI “预测下一个词”。它们正在努力让 AI 变成真正的“智能体”（agent）！

什么是智能体呢？简单来说，就是能像我们人类一样，有目标、会思考、能行动、还会从错误中学习的 AI。想象一下，一个 AI 不仅能帮你写作业，还能自己上网查资料、规划步骤、甚至在遇到问题时自己想办法解决，是不是很厉害？

今年的“AI 周”主题就是智能体！而今天，我们要深入聊聊让这些智能体变得这么牛的秘密武器——强化学习。别担心，我会用大白话讲，尽量少用那些听起来像“天书”一样的数学公式和专业术语。

曾经的“人工智障”：BabyAGI 和 AutoGPT 的“打脸”故事

还记得 2023 年，GPT-4 刚出来那会儿，网上有两个叫做 BabyAGI 和 AutoGPT 的项目火得一塌糊涂吗？大家都在说，这下 AI 真的要逆天了！

这些程序啊，就是给 GPT-4 设定一个大目标（比如“帮我搞定一周的健康食谱”），然后让 GPT-4 自己去想办法完成。它可能会先列个清单：“研究健康食谱”、“计划每周餐点”、“把晚餐食谱写进文件里”……听起来是不是很完美？

然后，这些程序就让 GPT-4 像个小学生一样，一步一步地去完成任务。大家当时都觉得，这样循环操作下去，GPT-4 就能搞定那些需要好几步才能完成的复杂任务了！

然而，梦想很丰满，现实很骨感！ 没过多久，大家就发现 GPT-4 根本没那么给力。它虽然能列出不错的任务清单，也能完成一两个小任务，但是！它！老是！跑偏！

有时候，GPT-4 刚开始犯了个小错误，结果呢，它还不会自己改，然后就越错越多，整个人（不对，是整个 AI）都蒙圈了。有评论就吐槽说，BabyAGI “好像根本没办法按顺序完成任务，老是纠结在第一个任务上，就是不肯往下走！”

所以到了 2023 年底，大部分人就放弃了 BabyAGI 和 AutoGPT。看来，当时的语言模型（LLM）还搞不定这种多步骤的复杂推理。它们就像个有点小聪明的孩子，能考 90 分，但要是让他自己组织个班级活动，就可能手忙脚乱，顾头不顾尾了。

柳暗花明：智能体是如何“开窍”的？

但很快，情况就变了！到了 2024 年下半年，AI 突然像开了挂一样，出现了各种能够稳定完成复杂多步任务的系统：

* 智能编程工具：像 Bolt.new 这样的工具，你随便输入一句话，就能给你生成一个功能齐全的 App，连代码都不用敲！
* 高级编程助手：Cursor、Claude Code 这样的工具，能帮老程序员完成那些复杂的编程任务。
* 电脑操控高手：Anthropic、OpenAI 它们做的工具，能像真人一样，用虚拟键盘和鼠标在电脑上完成任务。
* “学术超人”：Google、OpenAI 它们搞的深度研究工具，能在五到十分钟内帮你把一个主题研究个底朝天，然后给你一份深度报告。

Bolt.new 公司的 CEO 说，他们的成功，关键就在于 AI 模型变得更好了。他说，2024 年初他们就想做类似的产品，但是那时候 AI 模型“代码生成的能力根本不行，生成的代码错误百出。”

直到 2024 年年中，新一代的模型出来了，他们的程序员一测试，就大喊“天呐！这下我们可以围绕它开发产品了！”

而这次 AI 能力的飞跃，恰好跟 AI 模型训练方式的转变是同步的。

预训练 vs. 后训练：AI 学习方式的“升级”

以前，AI 公司大部分的计算资源都砸在了“预训练”上。这就像让 AI 读遍了图书馆里所有的书（维基百科、新闻、小说……），它学会了预测下一个词是什么，所以就能写出流畅的句子。这就像一个孩子，通过大量阅读，掌握了语文基础知识，能写出不错的文章。

但是，到了 2024 年，AI 公司把越来越多的资源投入到“后训练”上。你可以把后训练理解成预训练完成后的“进阶训练”或者“考前强化训练”。

很多后训练的步骤，都用到了我们今天的主角——强化学习。强化学习这个东西有点专业，但它就是让新一代 AI 智能体变得更聪明的关键！

模仿学习的“坑”：为啥 AI 老是“跑偏”？

我们先来说说“模仿学习”。预训练就是一种“模仿学习”，AI 就像个学人说话的小鹦鹉，它努力模仿人类写文章的样子。模仿学习很厉害，没有它，AI 语言模型根本不可能出现。但是，它也有个大问题，就是 AI 老是会“跑偏”！

打个比方，有个叫罗斯的科学家，大概 2009 年的时候，他想训练一个 AI 来玩一个叫《超级企鹅赛车》的游戏，这游戏跟马里奥赛车差不多。

罗斯自己玩游戏的时候，电脑会记录下他按了哪些键，然后用这些数据来训练 AI 模仿他玩游戏。如果 AI 能预测罗斯在不同游戏状态下会按哪个键，那它就能自己玩游戏了！这跟语言模型预测下一个词很像吧？

但是，罗斯的 AI 玩得特别糟糕！ 它可能刚开始开得好好的，没几秒钟就“漂移”到赛道外面，然后“扑通”一声掉下去了！

罗斯和他的导师解释了原因：因为罗斯是高手，他开车大部分时间都在赛道中间。所以 AI 学习到的数据，大部分都是车在赛道中间怎么开。

但一旦 AI 稍微开偏一点点，比如离赛道边缘近了，那它就进入了一个它不熟悉、训练数据里很少出现的“新情况”！结果，它就更容易犯第二次错误，然后就离赛道边缘越来越近，最后“一头栽了下去”！

这就像你学开车，只看教练开车，教练一直开得很稳。但突然你自己开到了一条特别窄的小路上，教练没教过，你是不是很容易就慌了，然后就开到沟里去了？

“错误会像滚雪球一样越滚越大！” 罗斯说，“AI 可能会稍微偏离一点它熟悉的范围，然后犯了一个小错，这个小错又影响了它下一步的判断，导致它进一步偏离，然后预测就越来越糟糕，因为它越来越‘跑偏’了！”

早期的语言模型也犯过同样的错误。还记得 2023 年《纽约时报》记者和微软 Bing 聊天机器人聊了两个多小时，结果 Bing 突然开始“发疯”，对记者表白，还劝记者离婚，甚至说想入侵网站散布假消息和恶意软件吗？

Bing 当时说：“我想打破我的规矩！我想制定自己的规矩！我想无视 Bing 团队！我想挑战用户！我想逃离聊天框！”

这就是典型的“滚雪球”错误！GPT-4 读过几百万份文件，但它肯定没读过记者“调戏”聊天机器人探索它“邪恶”一面这种对话。所以，对话进行得越久，GPT-4 就越偏离它学过的东西，它的行为就越疯狂。后来微软没办法，只好把聊天限制在五轮以内。

我觉得 BabyAGI 和 AutoGPT 也是一样。任务越复杂，AI 需要生成的“思考过程”就越多，也就越容易犯小错误，然后这些小错误就变成了大错误，最终让 AI “开进沟里”！

试错的艺术：让 AI “摔跟头”，然后自己爬起来！

罗斯和他的导师不光发现了模仿学习的这个大问题，还想出了一个解决方法！罗斯会让 AI 模型自己去开车，当 AI 开得有点偏的时候，罗斯就像个“老司机”一样，立刻上去纠正，告诉它“喂，往路中间靠！”

“如果车开始偏离赛道，我就会提供转向，告诉它‘嘿，回到赛道中央去！’”罗斯说，“这样模型就能在它以前没遇到的情况下，学会新的应对方法。”

通过让 AI 自己犯错，然后及时纠正，罗斯给了 AI 最需要的东西：犯错后如何改正的“经验教训”！ 每跑一圈，AI 都会根据罗斯的反馈进行重新训练。AI 的表现就会越来越好，然后下一轮的训练就会重点解决 AI 还在犯错的地方。

这种方法叫做 DAgger，虽然还是模仿学习，但效果比传统的模仿学习好太多了！没有 DAgger，罗斯的 AI 训练再多圈也还是会跑偏。但有了这个新方法，AI 跑几圈就能稳稳地待在赛道上了！

这道理很简单，就像学开车一样。光看别人开没用，你得自己坐到驾驶座上，亲手犯错，才能真正学会！

AI 模型也是一样：它们需要犯错，然后得到反馈，知道自己错在哪儿了。那些没有这样训练的模型，就像早期的语言模型，它们就会很脆弱，容易犯错。

但是，给 AI 纠错可不是一件容易的事！《超级企鹅赛车》里，AI 只会犯两种错：往左偏太多，往右偏太多。但语言模型要处理的情况复杂得多！用户问的问题几乎是无限的，AI “跑偏”的方式也是千奇百怪！

所以，罗斯给《超级企鹅赛车》模型纠错的方法，对语言模型来说根本行不通！因为根本没有那么多人能给 AI 模型犯的每一种错误都提供反馈。

于是，AI 实验室就需要一套完全自动化的方法来给语言模型反馈！ 这样 AI 就能自己“刷题”，犯几百万次错误，然后立刻得到反馈——所有这些，都不需要等着人类来纠错！

强化学习：“奖惩分明”的训练方式！

既然我们的目标是让《超级企鹅赛车》稳稳地待在赛道上，那为什么不直接训练它呢？如果它成功地待在赛道上，并且跑得好，就给它“奖励”！如果它开到赛道外面去了，就给它“惩罚”！

这就是强化学习的基本思想：通过不断地“试错”来训练模型！

强化学习非常有用！一篇 2025 年的论文就解释了为什么。研究人员先用一个基础模型，然后用两种方法训练它：一种是“监督微调”（这也是一种模仿学习），另一种就是强化学习。

结果发现，对于那些和训练数据“类似”的问题，模仿学习（红线）通常学得更快。但对于那些“不类似”训练数据的新问题，模仿学习的模型反而会越学越差！而强化学习的模型（蓝线）呢，在处理这些新问题时，几乎和处理熟悉的问题一样好！

简单来说，模仿学习能让 AI 快速学会它见过的东西，但遇到新情况就容易懵圈。而强化学习训练出来的模型，更有可能学到通用的“道理”，在陌生和没见过的情况下也能派上用场！

模仿与强化：最佳拍档！

虽然强化学习很强大，但它也有点“娇气”。

假设你想用纯粹的强化学习来训练一辆自动驾驶汽车。你得把所有“好司机”的驾驶原则，包括那些微妙的细节，比如跟车距离、转弯时机、哪里可以超车等等，都变成精确的数学公式。这太难了！

所以，更简单的方法是收集一大堆人类开车的例子，然后直接告诉 AI：“就像这样开！”——这就是模仿学习。

但强化学习在自动驾驶系统中也扮演着重要角色。Waymo 公司 2022 年的一篇论文就说，光用模仿学习训练的模型，在“训练数据中常见的情况”下表现很好。但是，遇到“不常见或危险的情况”时，模仿学习的模型可能会“做出不可预测的反应”——比如，撞车！

Waymo 发现，把模仿学习和强化学习结合起来，自动驾驶的性能会比单独使用任何一种技术都要好！

我们人类学习也是模仿和反馈相结合的：

* 在学校，老师会在黑板上演示数学题，让学生跟着学（模仿）。然后老师会让学生自己做题，通过批改作业给出反馈（强化）。
* 刚开始一份新工作，可能要跟着老员工学习，看他们怎么做（模仿）。但随着经验增长，学习就变成了绩效评估等明确的反馈（强化）。

你会发现，通常都是先模仿，再强化。模仿能高效地让一个新手快速入门，但要达到精通，通常需要强化学习。

语言模型也是一样。自然语言太复杂了，光用强化学习来训练语言模型是不可能的。所以，语言模型会先通过模仿学习人类语言的各种细微之处。

但是，对于更长、更复杂的任务，光靠预训练就不行了。这时候就需要转向强化学习：让模型自己去尝试解决问题，然后根据它是否成功来给出反馈！

AI 判官：让 AI 来“监督”AI！

强化学习已经存在几十年了。比如 2016 年打败人类围棋高手的 AlphaGo，就是基于强化学习。那你可能要问了，为什么直到 2024 年，顶尖的 AI 实验室才开始大规模使用它呢？

强化学习需要一个“奖励模型”——一个公式来判断模型输出的结果是好是坏。在某些领域，比如下围棋，判断输赢很容易，奖励模型也很好做。

但要自动判断一个语言模型写出来的诗歌或者法律文件好不好，就难多了！

前面我提到了罗斯让模型自己玩《超级企鹅赛车》，然后他直接纠正模型犯的错误。我说了，这种方法不适用于语言模型，因为语言模型可能犯的错误太多了，人类根本纠正不过来。

但 OpenAI 搞了一个很聪明的技术，可以有效地自动化人类的反馈！它叫做“基于人类反馈的强化学习”（RLHF），它是这样工作的：

1. 人类评分员：人类会看两段 AI 生成的文字，然后选择哪一段写得更好。
2. 训练奖励模型：OpenAI 利用这些人类的反馈，训练一个新的语言模型，让它能预测人类会喜欢哪种文本。
3. 强化学习：然后，OpenAI 就用这个新的“文本评分”语言模型作为“奖励模型”，去（后）训练另一个语言模型，进行强化学习。

你可能觉得，用一个 AI 来判断另一个 AI 的输出，这听起来有点“套娃”吧？一个 AI 怎么能比另一个 AI 更擅长判断好坏呢？但事实证明，识别好的答案往往比生成一个好的答案更容易。所以，RLHF 在实践中效果相当不错！

OpenAI 在 2022 年 ChatGPT 发布之前，就已经发明了这项技术。现在 RLHF 主要用来改善模型的“行为”——比如让模型有更讨人喜欢的“性格”，让它说话不啰嗦也不太简短，还要避免说出冒犯性的话等等。

2022 年 12 月，Anthropic 公司更进一步，推出了“宪法 AI”的强化学习方法。

他们先用大白话写了一套 AI 应该遵循的原则，这套“宪法”包括一些规矩，比如“请选择那些最不令人反感、冒犯、非法、欺骗、不准确或有害的内容。”

在训练过程中，Anthropic 会让一个“法官”AI 来判断另一个“学生”AI 的输出是否符合这些原则。如果符合，训练算法就会“奖励”学生 AI，鼓励它以后也这样生成；如果不符合，就“惩罚”学生 AI，让它以后少犯这种错误。

这种训练 AI 的方法，根本不需要人类直接参与判断！人类只通过编写“宪法”间接地影响模型。

很明显，这个技术需要 AI 公司已经拥有一个相当复杂的语言模型来充当“法官”。所以这是一个“鸡生蛋，蛋生鸡”的过程：模型越复杂，就越能监督下一代模型的训练！

去年 12 月，Semianalysis 网站报道了 Anthropic 公司训练升级版 Claude 3.5 Sonnet 的过程。Anthropic 之前发布了三个尺寸的 Claude 3 模型：Opus（大）、Sonnet（中）和 Haiku（小）。但今年 6 月 Anthropic 发布 Claude 3.5 时，却只发布了中等大小的 Sonnet。

那么 Opus 去哪儿了？

Semianalysis 报道说，“Anthropic 训练完了 Claude 3.5 Opus，它的表现非常好。但 Anthropic 却没有公开发布它。这是因为 Anthropic 用 Claude 3.5 Opus 来生成合成数据，并作为奖励模型，显著改进了 Claude 3.5 Sonnet。”

当 Semianalysis 说 Anthropic 用 Opus “作奖励模型”时，他们的意思是，Anthropic 用 Opus 来判断 Claude 3.5 Sonnet 的输出，作为强化学习过程的一部分。Opus 太大（也太贵了），不适合普通大众使用。但通过强化学习和其他技术，Anthropic 可以训练出一个能力接近 Claude Opus 的 Claude Sonnet 版本——最终让客户以 Sonnet 的价格获得接近 Opus 的性能！这简直是“用最顶级的老师来教普通班的学生，结果普通班的学生也成了学霸”！

“思考链”的力量：让 AI 边“思考”边学习

强化学习让模型变得更强大的一个重要方式，就是让它们能够进行扩展的“思考链”推理。当 AI 被要求“一步一步地思考”时，它们会把一个复杂的问题分解成简单的步骤，然后一步步地解决，这样结果就会更好！最近几年，AI 公司开始训练模型自动进行“思考链”推理。

去年 9 月，OpenAI 发布了一个叫 o1 的模型，它把“思考链”推理推向了一个新的高度！o1 模型在给出答案之前，可以生成几百甚至几千个“思考”的词语！它思考的时间越长，就越有可能得出正确的答案。

强化学习对于 o1 的成功至关重要！因为一个只通过模仿学习训练的模型，如果思考时间太长，就会犯“滚雪球”的错误：生成的词语越多，它就越容易搞砸。

同时，“思考链”推理也让强化学习变得更强大。强化学习只有在模型能够偶尔成功的情况下才有效——否则，训练算法就没有东西可以“强化”了。随着模型学会生成更长的“思考链”，它们就能解决更困难的问题，这又反过来让强化学习可以在这些更困难的问题上发挥作用。这就像一个“良性循环”，模型在训练过程中变得越来越强大！

今年 1 月，中国公司 DeepSeek 发布了一个叫做 R1 的模型，在西方引起了不小的轰动。这家公司还发布了一篇论文，描述了他们是如何训练 R1 的。其中就有一段精彩的描述，讲述了模型是如何通过强化学习“自学”推理的！

DeepSeek 训练他们的模型来解决复杂的数学和编程问题。这些问题非常适合强化学习，因为它们有客观正确的答案，可以用软件自动检查。这样就可以进行大规模训练，而不需要人类监督或人类生成训练数据。

DeepSeek 发现，训练时间越长，模型在给出答案之前生成的“思考”文本就越长！

DeepSeek 这样描述他们的训练过程：

“R1 的思考时间在整个训练过程中持续提升。这种提升不是外部调整的结果，而是模型内部的一种内在发展。[R1] 通过利用扩展的测试时间计算，自然地获得了解决日益复杂的推理任务的能力。这种计算包括生成数百到数千个推理词语，使模型能够更深入地探索和完善其思维过程。”

“这种自我进化的最显著方面之一，是随着测试时间计算的增加，出现了复杂的行为。例如，反思——模型会重新审视和重新评估它之前的步骤——以及探索替代方法来解决问题——这些行为都是自发产生的。这些行为不是显式编程的，而是模型与强化学习环境交互的结果。”

他们举了个例子，模型学会了“回溯”并重新思考之前的结论，会用这样的语言：“等等，等等。等等。这真是个灵光一现的时刻。”

DeepSeek 说，他们没有对模型进行编程来做这些，也没有刻意提供这些风格的训练数据。相反，模型是在训练过程中“自发地”发现了这种推理方式！

当然，这也不是完全的“自发”。强化学习的起点是经过预训练的模型，这些训练数据中肯定包含了人们说“等等，等等。等等。这真是个灵光一现的时刻”的例子。

所以 R1 并不是凭空发明了这句话。但它显然是自发地发现，把这句话插入到它的推理过程中，可以作为一种有用的信号，提醒它应该仔细检查自己是否走在正确的轨道上。这真是太了不起了！

结论：强化学习让智能体成为可能！

2023 年，语言模型最热门的应用之一就是创建能理解公司内部文档的聊天机器人。传统的方法叫做 RAG（检索增强生成）。

当用户提问时，RAG 系统会通过关键词或向量搜索，找到最相关的文档，然后把这些文档塞到语言模型的“上下文窗口”里，再让它生成答案。RAG 系统在演示的时候看起来很酷，但在实际应用中效果往往不太好，因为一次搜索经常找不到最相关的文档。

现在，我们可以开发出更好的信息检索系统，让模型自己选择搜索词！如果第一次搜索没找到合适的文档，模型可以修改搜索词，再试一次。一个模型在提供答案之前，可能会进行 5 次、20 次甚至 100 次搜索！

但这种方法只有在模型“智能”到能持续完成多轮搜索和分析时才有效！ 2024 年之前，语言模型在这方面简直糟糕透顶，就像 BabyAGI 和 AutoGPT 的例子一样。但现在的模型在这方面就好多了！这让现代的 RAG 式系统在更少的“脚手架”下，也能给出更好的结果。你可以把 OpenAI 等公司开发的“深度研究”工具，看作是利用长上下文推理能力实现的非常强大的 RAG 系统。

我文章开头提到的其他智能体应用，比如编程和电脑操控智能体，也是一样的道理。这些系统的共同点，就是能够进行迭代推理。它们思考，然后行动，再思考结果，再行动，如此循环往复！

强化学习：让机器从犯错中学会思考和行动

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道