OpenAI 研究员Nat McAleese 解释说,虽然 o 模型仍然“只是”大型语言模型,但它们采用了真正的强化学习(RL)——类似于 DeepMind 的 AlphaGo 中使用的方法。
与主要依赖人类反馈强化学习 (RLHF)的传统语言模型不同,o 模型通过明确定义的目标和场景上下文进行学习。这反映了 AlphaGo的训练过程,该系统有一个明确的目标 - 赢得比赛 - 并且能够通过无数场模拟比赛完善其策略,直到实现超越人类的表现。
这种方法对于编程和数学尤其有效,因为可以清楚地验证解决方案的正确性。
o3 不是简单地预测序列中的下一个单词,而是学会构建导致正确解决方案的思路链,这就解释了为什么o3在数学和编码基准测试中的出色原因。
扩大计算能力
OpenAI 将这种方法分为两个阶段:
1、第一阶段,他们称之为“训练时计算”,发生在初始训练期间规模扩大:
强化学习规模的扩大解释了为什么 o3 的表现比 o1 好得多。
2、当模型实际运行时,他们会增加额外的计算能力——他们称之为“测试时计算”:
这能帮助它更好地预测思维序列。
这种将强化学习与语言模型相结合的愿景并非 OpenAI 独有,DeepMind首席执行官 Demis Hassabis 去年夏天描述了类似的未来,他认为人工智能将“将 AlphaGo 类系统的优势与大型模型的惊人语言能力相结合”。该公司最近将这一想法付诸实践,推出了Gemini 2.0 Flash Thinking, OpenAI O3很可能使用了类似的训练方法。
面对现实世界的挑战
虽然研究员 Noam Brown 认为这种扩展趋势会持续下去,不会遭遇ChatGPT之父伊利亚认为的撞墙问题。
但还是有一个问题:这种方法需要大量计算资源。
这就是为什么 OpenAI 已经开始研究o3-mini,这是一个较小的版本,旨在使用更少的资源的同时保持强大的性能。该公司计划在 1 月底发布这个精简模型。
前 OpenAI 研究员、特斯拉 AI 负责人Andrej Karpathy 最近强调了在语言模型中使用强化学习的一些关键限制:
当涉及到写作风格或总结文本等更主观的任务时(成功更多地取决于细微差别,而不是明确的正确或错误答案),早期的 o1 模型并不比 GPT-4o 表现更好,有时甚至会失败。
我们还没有基准数据显示 o3 如何处理这些更开放的、基于“vibe氛围上下文”的任务。
这两种模式还面临着更大的考验:在复杂的现实世界中证明自己的能力,因为在现实世界中,问题的定义并不明确,可能包含矛盾,并且需要广泛的规划(元认知),这仍然是 o1 的弱点。
网友:
o3 的本质是 *放弃了单点 RL 超级智能* ,实现多点集中注意力,这样就覆盖有用问题空间中的更多点,穷举用例。
人工智能的世界对于强化学习实现神级特技并不陌生:
- AlphaGo 是超级智能。它打败了围棋世界冠军,远超 99.999% 的普通棋手。
- AlphaStar 是一种超级智能。它击败了星际争霸中一些最伟大的电子竞技冠军团队。
- 波士顿动力公司的 e-Atlas 是一种超级智能。它能完美地完成后空翻。大多数人的大脑不知道如何向四肢发送如此复杂的控制信号。
对于 AIME、SWE-Bench 和 FrontierMath 也可以做出类似的说法——它们就像下围棋专业领域一样,只要超越 99.99% 普通人的卓越领域专业知识就能获胜。
o3 在这些多个领域都能运作,堪称是一种超级智能。
关键区别在于 AlphaGo 使用强化学习来优化一个简单、几乎定义简单的奖励函数:赢游戏得 1,输游戏得 0。
学习复杂数学和软件工程的奖励函数要困难得多。o3 在解决 OpenAI 优先考虑的领域的奖励问题方面取得了突破。它不再是单点任务的强化学习专家,而是更大有用任务集的强化学习专家。
然而,o3 的奖励工程无法覆盖人类认知的所有分布用例,不可能穷举所有领域。
这就是为什么我们仍然受到莫拉维克悖论的诅咒。
o3 可以让菲尔兹奖得主惊叹不已,但仍然无法解决一些 5 年前的难题,这种认知失调就像我们不会指望 下围棋能手AlphaGo 能赢得扑克游戏一样。