OpenAI 最近发布了他们的新推理模型 o3-mini,这个模型在科学、数学和编程(STEM)领域表现得特别厉害,而且比之前的模型更快、更强。
根据 OpenAI 的说法,外部专家在 56% 的情况下更喜欢 o3-mini 的答案,而且在处理复杂问题时,严重错误减少了 39%。这个模型在跨语言任务中也表现得更好,尤其是在编程任务上,它在 SWE-bench Verified 这样的测试中成功率高达 49.3%。
推理模式:o3-mini 引入了三种推理模式——低、中、高。开发者可以根据自己的需求选择:
- 低:速度快,适合需要快速响应的任务。
- 中:平衡速度和准确性,适合大多数任务。
- 高:适合需要高精度的任务,比如编程和逻辑问题。
o3-mini 的响应时间比之前的 o1-mini 快了 24%,平均响应时间为 7.7 秒。在编码任务上,它的表现甚至超过了更大的模型,比如o1-preview 和 o1。
o3-mini 的训练数据结合了公开来源和 OpenAI 内部开发的数据。它可能使用了高质量的网络和书籍数据进行预训练,并且专门为STEM 任务生成了合成数据。这种训练方式让它在逻辑任务和分析上表现更好。
o3-mini 不仅速度快、能力强,还特别擅长 STEM 推理。它的中等推理模式在数学、编程和科学方面的表现和 o1 差不多,但响应速度更快。不过在写作和创意任务上可能不如其他模型。
根据专家测试,o3-mini 的答案比 o1-mini 更准确、更清晰,推理能力也更强。测试人员在 56% 的情况下更喜欢 o3-mini 的回答,而且在处理复杂问题时,重大错误减少了 39%。在中等推理模式下,o3-mini 在一些高难度的推理测试中表现得和 o1 一样好。
博士级科学:在博士级生物学、化学和物理学问题上,OpenAI o3-mini 在推理工作量较少的情况下,其性能优于 OpenAI o1-mini。在付出较大努力的情况下,o3-mini 的性能可与 o1 相媲美。
研究级数学:具有高推理能力的 OpenAI o3-mini 在 FrontierMath上的表现优于其前身。在 FrontierMath 上,当被提示使用 Python 工具时,具有高推理能力的 o3-mini 在第一次尝试时解决了超过 32% 的问题,其中包括超过 28% 的具有挑战性的 (T3) 问题。这些数字是临时的,上图显示了没有工具或计算器时的性能。
竞赛编程:在 Codeforces竞赛编程中,OpenAI o3-mini 随着推理努力的增加而获得越来越高的 Elo 分数,均优于 o1-mini。在中等推理努力下,它的表现与 o1 相当。
软件工程:o3-mini 是我们在 SWEbench 验证中性能最高的发布模型。有关 SWE-bench 验证结果的更多数据点,包括使用开源 Agentless 脚手架(39%)和内部工具脚手架(61%),
LiveBench 编码:OpenAI o3-mini 即使在中等推理工作量下也超越了 o1-high,凸显了其在编码任务中的效率。在高推理工作量下,o3-mini 进一步扩大领先优势,在关键指标上实现了显著增强的性能。
常识:o3-mini 在常识领域的知识评估中表现优于 o1-mini。
人类偏好评估:外部专家测试人员的评估还表明,OpenAI o3-mini 的答案更准确、更清晰,推理能力比 OpenAI o1-mini 更强,尤其是在 STEM 方面。测试人员在 56% 的时间里更喜欢 o3-mini 的回答,而不是 o1-mini,并且观察到在困难的现实问题上重大错误减少了 39%。
o3-mini 现在还支持搜索功能,可以提供最新的网络资源链接。这是 OpenAI 将搜索集成到推理模型中的早期尝试。
o3-mini 是个非常强大的工具,特别适合那些需要处理技术问题的用户!
免费与付费
免费 ChatGPT 用户现在可以通过选择“推理”选项或重新生成答案来试用 o3-mini。这是 ChatGPT 第一次向免费用户提供推理模型。
付费用户福利:
- Plus 和 Team 用户:每天的消息限制从 50 条增加到 150 条。
- Pro 用户:可以无限制使用 o3-mini 和 o3-mini-high(高推理模式)。
- 企业用户:o3-mini 将在 2 月份推出。
对于 API 用户,o3-mini 的价格比 o1 低了 93%。具体价格如下:
- 输入令牌:每百万 1.10 美元。
- 输出令牌:每百万 4.40 美元。
- 缓存令牌:价格是输入令牌的一半。
总的来说,OpenAI o1 还是我们用来处理广泛常识推理的模型,而 o3-mini 则更适合那些需要高精度和速度的技术领域。在 ChatGPT 中,o3-mini 默认使用中等推理模式,平衡了速度和准确性。所有付费用户还可以选择高智能版本的 o3-mini-high,不过生成响应的时间会稍微长一些。专业用户可以无限制地使用 o3-mini 和 o3-mini-high。
安全问题:
o3-mini 在说服力、CBRN 风险(化学、生物、放射、核)和模型自主性方面被评为“中等风险”。测试显示,它有 79% 的概率说服模拟受害者捐款,并且能获得最高捐款金额。虽然它的说服力接近人类水平,但 OpenAI 表示,这种“超人”操纵能力只有在极端情况下才会出现。
在公平性方面,o3-mini 的表现和之前的模型差不多,但在模糊问题上的准确率下降到 82%,远低于 GPT-4o 的 97%。它在医疗决策测试中表现出较少的显性歧视,但隐性偏见水平保持不变。
局限性
尽管 o3-mini 在编码任务上表现优异,但在模拟 OpenAI 工程师的真实拉取请求测试中,它的成功率为 0%。主要原因是模型无法正确遵循指令,反复尝试使用不存在的命令,导致任务失败。这表明,完全自主的 AI 代理可能还需要更多改进。
总结:
o3-mini 是一个快速、强大且专门为 STEM 任务优化的模型,特别适合需要高精度和速度的技术领域。虽然它在某些复杂任务上还有改进空间,但整体表现已经非常出色,尤其是在编程和逻辑推理方面。对于开发者、学生和技术爱好者来说,o3-mini 是一个非常值得尝试的工具!