GPT-4.5 的进步更多体现在“氛围感”上,而不是基准测试。GPT-4.5更像一个女性,而不是理工直男。
OpenAI 的 CEO 奥特曼 刚当了爸爸(与另外一个男人结婚),没参加 GPT-4.5 的发布会,但他在 X 上评论说:“这是第一个让我感觉像是在和一个有思想的人对话的模型。有好几次,我坐在椅子上,惊讶地发现 AI 真的给了我很好的建议。” 奥特曼 强调,GPT-4.5 不是推理模型,也不会打破基准记录:“这是一种不同类型的智能,有一种我从未感受过的魔力。”
OpenAI 的创始成员 Andrej Karpathy 也看到了类似的进步,尽管他觉得很难量化。他在评论中说,每次版本号增加 0.5,训练计算量大概会增加 10 倍。
Karpathy 回顾了 GPT 模型的演变:从勉强能生成连贯文本的 GPT-1,到像“令人困惑的玩具”一样的 GPT-2,再到 GPT-3,结果明显更有趣。接着,GPT-3.5 跨过了市场准备的门槛,引发了 OpenAI 的“ChatGPT 时刻”。
Karpathy 说,到了 GPT-4,改进已经变得更微妙了。他写道:“一切都好了一些,但以一种分散的方式。”词汇选择更有创意,对提示的理解更细致,类比更有意义,模型也稍微有趣了一点,幻觉出现的频率也降低了。
他用同样的期望测试了 GPT-4.5,这个模型的训练计算量是 GPT-4 的十倍。他的结论是:“两年前我也参加过同样的黑客马拉松。一切都好一点,很棒,但也并非毫无亮点。”
GPT-4.5 的表现有好有坏 在一些测试中,GPT-4.5 表现出了明显的进步:
- 比如在 SimpleQA 测试中,它的准确率达到了 62.5%,而 GPT-4o 只有 38.2%,最近发布的 Grok 3 也只有 43.6%。
- 它的“幻觉率”也从 61.8% 降到了 37.1%,比 o1 和 o3-mini 都要好。
- 在多语言和多模态测试中,它的成绩也超过了 GPT-4o 和 o3-mini。
不过,在 STEM(科学、技术、工程、数学)领域的测试中,GPT-4.5 还是比不上 o3-mini 这样的推理模型。
- 比如在 GPQA(自然科学)测试中,GPT-4.5 的得分是 71.4%,而 o3-mini 达到了 79.7%。
- 在数学测试中,GPT-4.5 的得分是 36.7%,虽然比 GPT-4o 的 9.3% 高很多,但离 o3-mini 的 87.3% 还差得远。
最近发布的 Claude 3.7 Sonnet 在 Anthropic 的测试中表现也不错,但不同模型的测试方法和问题集不一样,所以不能直接比较。
总的来说,GPT-4.5 在基准测试中没有表现出巨大的飞跃,最好的结果可能是在 SimpleQA 测试中。
未来几天,可能会有很多关于“扩展是否已经到头撞墙”、“深度学习是否遇到瓶颈”之类的讨论。
网友讨论: 预训练很重要,但你也得通过合适的后训练来真正用好它。如果你预测的东西很傻,那预测下一个词就没啥意义了。
我们现在有4种扩展模型的方式:预训练、后训练、强化学习/推理(RL/Reasoning)和推理时间计算。我们应该好好研究怎么把这四种方式都做到位。
GPT-4.5 的问题在于它太大了,导致很难扩展,尤其是强化学习/推理和推理时间计算。
一个关键问题是,你需要一个在输出扩展时不会受到“KV-Cache”严重影响的架构。o 系列已经有这个问题了,所以价格比 4o 还高。到了 GPT-4.5,这问题直接变成了噩梦。
另外,如果你用Chinchilla 缩放定律来搞强化学习/推理,它会更倾向于更小、更快的模型,原因有三个:
- 大多数优化不需要特别复杂的表示,而是更压缩的,因为它不需要验证太多知识,而是更注重推理和直觉。
- 完成强化学习目标通常需要很多计算,所以能更快完成的模型更受欢迎。
- 对于不太常见的任务,需要更多计算,这也意味着反向传播更少,所以更快、更小的模型更吃香。
但总的来说,强化学习/推理还是更适合小模型,而不是预训练。 GPT-4.5 也不是完全没用,它可以通过更好的后训练来改进,也可能对模型蒸馏有帮助。
真正的问题是,它显然没预见到未来推理模型需要的架构和优化。
现在,因为它后训练能力弱,几乎不适合任何任务,再加上 API 定价太高,就显得特别离谱和让人失望。