证据表明:GPT-4.5实际超出扩展预期

很多人一直在说,GPT-4.5 证明了“扩展定律失效”或者“没有达到大家预期的改进效果”。但有趣的是,这些人似乎从来没有拿出任何实际的数据来证明 GPT-4.5 的扩展性有问题。

那么,我们到底可以看哪些数据来研究这个问题呢?幸运的是,有一些著名的数据分析组织,比如 EpochAI,他们专门研究语言模型,并且总结出了一些扩展规律。他们通过把模型的训练计算量和某些测试的表现联系起来,发现了一些规律。其中一个常用的测试是 GPQA Diamond,这个测试包含了很多 STEM 领域(科学、技术、工程、数学)的博士级难题。EpochAI 用这个测试评估了很多开源和闭源的模型,并且记录了这些模型的训练计算量。

当 EpochAI 把训练计算量和 GPQA 的得分画在图上时,他们发现了一个趋势:每当训练计算量增加 10 倍,GPQA 的得分就会提高 12%。这个趋势为我们设定了一个预期,我们可以用这个预期来评估未来的模型表现。虽然问题的难度也在增加,所以一般来说,训练计算量增加 10 倍,得分提高 7-10% 可能更合理。

现在我们知道,GPT-4.5 的训练计算量是 GPT-4 的 10 倍(而且每一代 GPT 的训练计算量都是前一代的 100 倍)。所以,如果 GPT-4.5 的表现没有比 GPT-4 提高至少 7-10%,那我们可以说它没有达到预期。那么,GPT-4.5 的实际表现如何呢?

GPT-4.5 的得分比原来的 GPT-4 高了 32%!即使和表现更好的 GPT-4o 相比,GPT-4.5 也比它高了 17%。这不仅超过了 7-10% 的预期,甚至比历史上观察到的 12% 的趋势还要高。

这是一个通过实际数据建立能力预期的典型例子。从客观数据来看,GPT-4.5 的表现已经超出了预期。

总结一下: 很多人说 GPT-4.5 没有达到扩展预期,但他们没有拿出任何实际数据。

  • EpochAI 发现,历史上每增加 10 倍训练计算量,GPQA 的得分会提高 12%。
  • 而 GPT-4.5 的表现远远超过了这个预期,比 GPT-4o 提高了 17%。
  • 如果和 2023 年的原始 GPT-4 相比,GPT-4.5 的表现更是提高了 32%。

如果我们进行 1000 倍计算,我们将获得超过 100% 的准确率? 一开始做测试的时候,前几分的提升比较容易,所以每增加10倍的计算量,分数可能会增长得比12%更快。但是,随着分数越来越高,提升会变得越来越难,尤其是当分数达到80%或90%以上时,每增加10倍计算量,分数的增长可能会远远低于12%。不过,幸运的是,目前模型的最高分数还在30%到70%这个范围内,所以12%的增长预期在这个阶段还是比较可靠的。

如何才能在获得最高分的测试中获得线性提升? 一开始预计分数会以超过每 10 倍计算 12% 的速度增加,而到最后预计分数的增幅会远低于每 10 倍计算 12% 的增幅,因为上部百分比的难度较高。 这就是为什么说分数范围超过 50% 可能只会带来 7-10% 的收益。

要点: 人们拿 GPT-4.5 和那些“带思考”的模型(比如 Grok3、Claude 3.7、R1)做比较,然后说 GPT-4.5 太贵了,而且表现只和 o3mini 差不多。但他们完全忽略了一个关键点:

  • 这些新模型的初始价格都很高,而 GPT-4.5 的 API 成本只比 GPT-4 贵一点点。
  • 随着技术优化,价格很可能会逐渐下降。
更重要的是,GPT-4.5 并不是一个“思维模型”,但在应用测试时间的计算扩展之前,它的表现已经和其他顶尖的“思维模型”一样好了。这说明 GPT-4.5 的潜力非常大,尤其是在未来优化和扩展后,它的表现和成本效益可能会更加突出。

所以,单纯用现在的价格和表现来评判 GPT-4.5 是不全面的,我们需要考虑到它的发展潜力和优化空间。

Scaling law依然有效。

为何很多直男认为GPT4.5不行?因为奥特曼给GPT4.5加了更多的“灵魂”,让它更有感觉。这当然让那些只靠脑子干活、不懂感情的程序员和工程师很生气。但正是 ChatGPT 聊天机器人里的这种“氛围”,才让 OpenAI 成为了最厉害的。