要点
- OpenAI 推出了其迄今为止最先进的 AI 模型 o3。该系统在关键基准上创下了新的性能记录。它在科学问题上的表现甚至超过了博士级专家。这是一个类似于 o1 的推理模型,在推理过程中使用更多的计算,因此成本更高。
- ARC 基准的创建者 François Chollet 表示,o3 代表了与之前语言模型的根本性转变。它不仅仅是模式匹配,还可以实时创建新程序来解决不熟悉的问题。尽管 o3 具备这些功能,但它还不是通用人工智能 (AGI),处理信息的方式仍然与人类截然不同。
- 该公司计划于 2025 年 1 月底推出一款经济实惠的 o3 迷你版。即使在中等设置下运行,这款小型型号的性能也优于之前的 o1 系统。o3 的完整版将在之后的某个时间推出。
OpenAI 的新 o3 模型代表了人工智能能力的重大飞跃,特别是在解决问题的方法上。与刚刚发布的前身 o1 一样,o3 需要更多时间和计算能力来解决问题,并使用复杂的推理过程来获得解决方案。
o3 在关键基准测试中创下纪录。使用标准计算能力,o3 在AGI 基准测试 ARC Prize上达到 75.7% ,随着资源的增加,这一数字跃升至 87.5%。ARC基准测试被视为通用人工智能 (AGI) 进展的指标。
以下是chatgpt各个模型及其ARC基准测试中表现:
- GPT-2 (2019): 0%,表示在测试中没有达到任何标准或没有性能。
- GPT-3 (2020): 0%,与GPT-2相同,没有性能。
- GPT-4 (2023): 2%,性能非常低。
- GPT-4o (2024): 5%,性能略高于GPT-4。
- o1-preview (2024): 21%,性能有显著提升。
- o1 high (2024): 32%,比o1-preview有更好的表现。
- o1 Pro (2024): 50%,性能接近一半。
- o3 tuned low (2024): 76%,性能非常高,但不是最高。
- o3 tuned high (2024): 87%,性能最高,接近完美。
在数学方面,o3 的表现尤其引人注目。
- 该模型在 2024 年美国数学奥林匹克竞赛 (AIME) 中几乎拿下第一名,解决了 96.7% 的问题,只漏掉了一题。
- 在 EpochAI 出了名的困难的FrontierMath前沿数学基准测试中,o3 的得分为 25.2%,与之前的模型相比有了巨大的进步,之前的模型得分都达不到 2%。
99.99% 的人无法理解 FrontierMath 有多么疯狂:
这些问题是由数学教授设计的,而不是任何训练数据。
数学传奇人物陶哲轩表示:“这些问题都非常具有挑战性。我认为它们至少能抵抗人工智能几年。”
OpenAI o3 已经取得了 25% 的成绩,人类还能抵抗几年。
该系统在其他领域也表现出了类似的进步。与 o1 相比,软件任务准确率提高了 20%,达到 71.7%。在竞技编程方面,o3 的 Codeforces 得分为 2727,超过了 OpenAI 首席科学家的 2665 分。
OpenAI 的数据显示,在 GPT 钻石基准的博士级科学问题中,o3 的得分为 87.7%,远高于各领域博士专家约 70% 的平均水平。
推理计算优点
开发 ARC 基准的 François Chollet将 o3 的性能描述为“AI 能力的令人惊讶且重要的阶跃提升”:
- OpenAI 的新 o3 系统(在 ARC-AGI-1 公共训练集上进行训练)在我们公布的公共排行榜 10,000 美元计算限制下的半私人评估集上取得了突破性的75.7% 的成绩。
- 高计算(172x)o3 配置得分为87.5%。
o3 的与众不同之处在于其解决问题的方法。与主要检索存储模式的传统语言模型不同,o3 可以实时创建新程序来解决不熟悉的挑战。
该系统的工作原理与Google DeepMind 的 AlphaZero国际象棋程序类似,有条不紊地搜索可能的解决方案,直到找到正确的方法。这个彻底的过程解释了为什么 o3 需要如此强大的计算能力——它为单个任务处理多达 3300 万个标记。
与目前的 AI 系统相比,这种密集的 token 处理需要花费大量成本。高效版本每项任务的成本约为 20 美元,这笔费用很快就会累积起来——100 项测试任务的成本为 2,012 美元,而全套 400 项公共任务的成本为 6,677 美元(平均每项任务约 17 美元)。
低效版本需要的资源更多——计算能力是高效版本的 172 倍。虽然 OpenAI 尚未透露确切的成本,但测试显示,该版本处理 3300 万到 1.11 亿个 token,每个任务需要大约 1.3 分钟的计算时间。
不完全是 AGI
尽管取得了这些令人印象深刻的成果,但o3 还不是通用人工智能。该系统在一些基本任务上仍然举步维艰,与人类智能存在根本区别。
随着 o3 突破当前 ARC 基准的极限,Chollet 宣布将在 2025 年推出更具挑战性的继任者。早期测试表明,o3 在 ARC-AGI-2 上只能实现约 30%,而未经特殊训练的人类可以解决其任务的约 95%。
o3-Mini 版本即将推出
OpenAI 计划于 2025 年 1 月下旬发布价格更实惠的 o3 迷你版,随后发布完整版。迷你版将提供三种速度设置(低、中、高),即使在中等设置下也比 o1 表现更好,同时速度更快、更具成本效益。
在现场演示中,OpenAI 展示了 o3 mini 独立生成和执行代码的能力,包括创建一个 Python 脚本,该脚本构建了一个用于在数据集上进行自我评估的用户界面。迷你版还支持函数调用和结构化输出等 API 功能,在某些方面甚至超过 o1。
o3 模型处于“预览”状态,仅对通过其网站上的链接申请的安全和安保研究人员开放。最近,山姆奥特曼Sam Altman 表示应该有一个联邦测试框架来确保发布前的安全,因此谨慎是有道理的
banq注:人们已经从AI是否遭遇天花板或撞墙了的讨论,转移到如何测试AI,AI测试才撞墙了。
下一步问题是:如何测试比自己智商高的智能,靠道德仁信吗?
程序员以后成为领航员,告诉AI需要解决的问题范围上下文情况,类似大喊:向我开炮。