预训练→微调→环境交互:AI学习范式的三次进化


Andrej Karpathy大神:在大语言模型的发展历史中,我们其实经历了几个不同的“学习时代”。

第一个时代是预训练(pretraining)时代。
在这个阶段,最重要的就是大规模互联网文本。你需要尽可能多、尽可能多样化、并且质量较高的网络文档,来让模型学习到统计规律与语言模式。换句话说,这个阶段的核心就是“读书”,而书的内容就是互联网中人类留下的知识。

第二个时代是有监督微调(supervised finetuning)时代。
这里的重点从“读”转向了“答”。模型需要的不再只是被动地吸收互联网上的文章,而是要学会回答问题。于是,数据主要来自人工标注:一些外包的标注人员会生成问答对,内容形式有点类似于 Stack Overflow 或 Quora 上的回答,只是更偏向大语言模型的使用场景。这个阶段让模型变得更像一个“助手”,而不是单纯的语言统计机器。

进入到今天,我们来到了强化学习(reinforcement learning)时代。
这一次,核心不再只是文本或对话,而是“环境”(environments)。环境的独特之处在于,它允许模型与之交互:采取行动,观察结果,再进行调整。这和前两个时代最大的不同在于,模型不再只是模仿“专家的样子”,而是有机会通过与环境的互动真正学习、探索,甚至优化。
这意味着我们不仅能训练模型,还能用环境来进行评估。而新的挑战也随之出现:就像过去需要大规模优质的语料或对话数据一样,现在的关键问题是,如何获得一个大规模、多样化、高质量的环境集合,让模型在其中不断练习。

这种思路让人不禁联想到 OpenAI 的最初项目——Gym。
Gym 当年同样是希望提供一个统一框架,来汇集各种环境。只不过当时的背景还在深度强化学习的早期,所以环境主要是一些学术界常见的控制任务,比如 CartPole、Atari 游戏等等。而如今的 LLM 环境中心(例如 @PrimeIntellect 提出的 environments hub,以及 GitHub 上的 verifiers 仓库),可以看作是这一思路的“现代版”,但对象不再是小规模的控制任务,而是面向大语言模型的交互与应用。
这种模式很有前景,因为一旦框架骨架搭建起来,社区和产业界就能并行地在不同领域不断扩展新的环境。这种“群体协作式”的生态扩张,潜力非常大。

不过,作者最后也提出了一个非常个人化但值得思考的观点。
他长期看好“环境”和“智能体交互”的方向,但对“强化学习”本身却持保留态度。他的理由是:奖励函数(reward function)本身非常可疑,定义和设计都存在巨大问题。而且从人类学习的角度看,我们的智力发展似乎并不是靠强化学习实现的。
当然,人类可能在一些运动控制类任务中依赖强化学习,但在智力和问题解决方面,人类显然采用了更高效、更强大的学习范式。只是这种范式目前在人工智能领域还没有被真正发明并规模化应用。

一个有趣的早期想法是“系统提示学习(system prompt learning)”。
它的核心思想是,把更新从模型权重转移到“上下文与提示词”中。模型可以在交互过程中不断调整自己的系统提示,就像人类通过上下文与记忆来修正行为。而模型的权重更新则可以作为后续的“蒸馏”步骤,类似于人类在睡眠中对白天经验进行巩固。
这类方法虽然还处于早期探索阶段,但它们可能代表着比强化学习更符合人类学习方式的未来方向。

总结一下:
过去是“读互联网文本”的时代,接着是“学会回答问题”的时代,而现在则是“在环境中行动与交互”的时代。随着环境生态的扩展,我们有机会打造出真正的练习场,让模型超越模仿,走向自主学习。但与此同时,强化学习本身可能并不是最终答案,更接近人类学习机制的全新范式或许才是未来真正的突破口。