奥特曼说:
- 它真的很聪明!我第一次看到他们的时候,我不相信相对于o3的胜率。
- 我们把o3的价格降了80%!!很期待看到人们会用它来做什么
- 我想你也会对O3-Pro的性能定价感到满意:)
性能测试:
展示了OpenAI的o3-pro模型在三个不同的评估基准上的表现,分别是竞赛数学(AIME 2024)、博士科学问题(GPQA Diamond)和竞赛编程(Codeforces)。每个基准都展示了o1-pro、o3(中等)和o3-pro三个版本的模型的性能。
竞赛数学(AIME 2024):
- o1-pro的准确率为86%。
- o3(中等)的准确率为90%。
- o3-pro的准确率为93%。
博士科学问题(GPQA Diamond):
- o1-pro的准确率为79%。
- o3(中等)的准确率为81%。
- o3-pro的准确率为84%。
竞赛编程(Codeforces):
- o1-pro的pass@1 Elo为1707。
- o3(中等)的pass@1 Elo为2517。
- o3-pro的pass@1 Elo为2748。
方法论:
- 所有模型的评估均使用默认(中等)ChatGPT思考时间。
- o3和o3-pro的Codeforces评估使用了更新的、更困难的任务集,因为之前的版本(用于o1-pro)接近饱和。
o3 Pro 与 Opus 和 Gemini 2.5 Pro相比
o3 Pro 与 Opus 和 Gemini 2.5 Pro 有很大的不同。Opus虽然给人留下了深刻的印象,但并没有展示出其“伟大”的一面,而o3 Pro则表现得更好,感觉像是在一个完全不同的领域。
OpenAI 正在推动垂直强化学习路径(包括深度研究和代码),不仅仅是教模型如何使用工具,还包括如何推理何时使用这些工具。
提示推理模型的最佳方法没有改变。上下文是关键,就像给饼干怪兽喂饼干一样。这是一种提升大型语言模型(LLM)记忆的方法,但目标明确,使其有效。
系统提示非常重要,模型实际上变得非常可塑,以便LLM可以“驯服”模型,使其了解其环境和目标,从而产生外部影响。这种“驯服”是模型、工具、记忆和其他方法的结合,使AI产品变得非常好用(例如,大多数时间都能正常工作的Cursor)。
其他任务:
- 系统配置文件极大地影响了模型行为(以一种好的方式),感觉比o3更明显。
- 跳跃和边界与anthropic和gemini不同。Opus感觉更大,但从未展示出其“伟大”的一面,这些则表现得更好,感觉像是在一个完全不同的领域。
- OpenAI 正在推动垂直强化学习路径(包括深度研究和代码),例如,教模型如何使用工具,以及如何推理何时使用这些工具。
网友热评:
1、越接近100%,智力上的差距就越大。这就像比较国际象棋埃洛2400至2600年,同样的方式,你区分1000埃洛至1800年,这是一个巨大的差异
人们不理解百分比-
- 90%的准确率= 10%的错误率
- 93%的准确率= 7%的错误率
换句话说,从o3(中等)到o3 pro,错误率降低了30%。
你也可以说,与o1 pro相比,o3 pro出错的可能性要低2倍。
这听起来只是一个小的改进,因为结果是由科学家而不是营销团队提出的。
2、Gemini 2.5 Pro Deep Think以USAMO为基准,比AIME更严格。那么,为什么o3-Pro在AIME上进行测试呢?这是否意味着2.5 Pro Deep Think仍然拥有王冠?