奥特曼力荐O3-Pro性能超群!O3价格跳水80%

o3-pro现在面向所有chatgpt pro用户和API推出。

奥特曼说:

  • 它真的很聪明!我第一次看到他们的时候,我不相信相对于o3的胜率。
  • 我们把o3的价格降了80%!!很期待看到人们会用它来做什么
  • 我想你也会对O3-Pro的性能定价感到满意:)

性能测试:

展示了OpenAI的o3-pro模型在三个不同的评估基准上的表现,分别是竞赛数学(AIME 2024)、博士科学问题(GPQA Diamond)和竞赛编程(Codeforces)。每个基准都展示了o1-pro、o3(中等)和o3-pro三个版本的模型的性能。

竞赛数学(AIME 2024):

  • o1-pro的准确率为86%。
  • o3(中等)的准确率为90%。
  • o3-pro的准确率为93%。
从图中可以看出,随着版本的提升,模型在竞赛数学上的准确率逐渐提高。

博士科学问题(GPQA Diamond):

  • o1-pro的准确率为79%。
  • o3(中等)的准确率为81%。
  • o3-pro的准确率为84%。
同样,随着版本的提升,模型在博士科学问题上的准确率也有所提高。

竞赛编程(Codeforces):

  • o1-pro的pass@1 Elo为1707。
  • o3(中等)的pass@1 Elo为2517。
  • o3-pro的pass@1 Elo为2748。
在竞赛编程方面,o3-pro的表现显著优于前两个版本。

方法论:

  • 所有模型的评估均使用默认(中等)ChatGPT思考时间。
  • o3和o3-pro的Codeforces评估使用了更新的、更困难的任务集,因为之前的版本(用于o1-pro)接近饱和。
总体来看,o3-pro在所有三个评估基准上都表现出色,显示出随着模型版本的提升,其性能有了显著的提高。

o3 Pro 与 Opus 和 Gemini 2.5 Pro相比
o3 Pro 与 Opus 和 Gemini 2.5 Pro 有很大的不同。Opus虽然给人留下了深刻的印象,但并没有展示出其“伟大”的一面,而o3 Pro则表现得更好,感觉像是在一个完全不同的领域。

OpenAI 正在推动垂直强化学习路径(包括深度研究和代码),不仅仅是教模型如何使用工具,还包括如何推理何时使用这些工具。

提示推理模型的最佳方法没有改变。上下文是关键,就像给饼干怪兽喂饼干一样。这是一种提升大型语言模型(LLM)记忆的方法,但目标明确,使其有效。

系统提示非常重要,模型实际上变得非常可塑,以便LLM可以“驯服”模型,使其了解其环境和目标,从而产生外部影响。这种“驯服”是模型、工具、记忆和其他方法的结合,使AI产品变得非常好用(例如,大多数时间都能正常工作的Cursor)。

其他任务:

  • 系统配置文件极大地影响了模型行为(以一种好的方式),感觉比o3更明显。
  • 跳跃和边界与anthropic和gemini不同。Opus感觉更大,但从未展示出其“伟大”的一面,这些则表现得更好,感觉像是在一个完全不同的领域。
  • OpenAI 正在推动垂直强化学习路径(包括深度研究和代码),例如,教模型如何使用工具,以及如何推理何时使用这些工具。

网友热评:
1、越接近100%,智力上的差距就越大。这就像比较国际象棋埃洛2400至2600年,同样的方式,你区分1000埃洛至1800年,这是一个巨大的差异

人们不理解百分比-

  • 90%的准确率= 10%的错误率
  • 93%的准确率= 7%的错误率

换句话说,从o3(中等)到o3 pro,错误率降低了30%。
你也可以说,与o1 pro相比,o3 pro出错的可能性要低2倍。

这听起来只是一个小的改进,因为结果是由科学家而不是营销团队提出的。

2、Gemini 2.5 Pro Deep Think以USAMO为基准,比AIME更严格。那么,为什么o3-Pro在AIME上进行测试呢?这是否意味着2.5 Pro Deep Think仍然拥有王冠?