为什么OpenAI o3比o 1增强得这么快？

#ChatGPT等OpenAI技术 #大语言模型LLM

2025-01-18 2K banq

OpenAI O3比O1增长更快的原因？

这是过去两年AI/LLM进展的3个关键要点的结果：

A）LLM的模型蒸馏效果非常好（与此相关，合成数据可以很好地工作）
B）我们发现了一个新的训练目标（学习一种直觉，用于导航可能的思想链的完整树），这第一次实现了RL在训练中缩放，并导致具有增加的输出多样性的模型，其可以：

C）推理时间的缩放计算导致可预测的更高模型能力，这导致反馈回路。

1、模型蒸馏
模型蒸馏允许一个更有能力的模型来教一个能力较差的学生模型，并显着缩小他们之间的能力差距。

模型蒸馏是一种将大型、复杂模型（教师模型）的知识转移到小型、高效模型（学生模型）的技术。近年来，LLM的蒸馏效果显著提升，使得学生模型能够接近甚至超越教师模型的性能。这种技术不仅减少了模型的计算需求，还提高了模型的泛化能力。

2、新的训练目标
因此，现在我们不需要使用功能更强的基础模型，我们可以使用相同的模型及其测试时间计算缩放的能力提升来教导它自己的基础模型。

这创建了一个新的模型v2，它从更高的能力基础开始，而我们可以通过推理扩展来增加这些能力。

3、推理时间的缩放计算
然后，可以使用测试时间提升的v2来通过模型扩散进行自我教导，从而得到v3。

除了这个反馈循环，我们也可以通过扩展RL训练数据轻松获胜，并进一步试错。

总之
下一个token预测预训练计算缩放仍然有效，但与上面说的新方法相比，目前看起来就不是计算投资的最高能力回报。

什么是CoT和RL方法：

思想链（Chain of Thought, CoT）：CoT是一种新的训练目标，允许模型在推理过程中生成中间步骤，从而更好地理解和解决复杂问题。这种方法不仅提高了模型的推理能力，还使得模型能够处理更复杂的任务。
强化学习（RL）的扩展：通过引入CoT，强化学习在训练中的扩展性得到了显著提升。模型能够生成更多样化的输出，并且在推理时间计算能力增加的情况下，能够更好地利用这些输出进行自我改进。

通过推理时间计算能力的提升，模型能够生成更高质量的输出，这些输出可以用于自我教导。这种自我教导机制使得模型能够不断改进自身，从而在每次迭代中都能获得显著的性能提升。

从v1到v2再到v3的迭代过程中，模型的基础能力不断提升。每次迭代都从更高的基础能力开始，并通过推理时间计算能力的提升进一步增加模型的能力。这种迭代机制使得模型的性能呈指数级增长。

网友：
我们现在确切地知道了伊利亚看到了什么。但这不仅仅是一个阶梯式的进步，而是一个智力的良性循环。这是一种滚雪球效应，每次迭代都会增加大约相当于人类智商标准差（15 分）的水平。

当前模型的智商大约为 130，因此，您再转动这个曲柄一次，您的智商将达到 145（典型的高端科学家或工程师），再转动一次，您的智商将达到 160，这越来越接近霍金/爱因斯坦。