OpenAI 今天发布了 OpenAI o3 和 o4-mini, 这是最新的 o 系列模型,经过训练后,可以在做出反应前进行更长时间的思考。这是他们迄今为止发布的最智能的模型,代表着 ChatGPT 功能的一次重大飞跃,适用于从好奇的用户到高级研究人员的所有人。
很酷的是,他们开源了他们的终端集成:https://github.com/openai/codex
OpenAI 这周三搞了个大新闻,他们推出了两款新AI模型:o3和o4-mini。这俩家伙厉害了,不仅能像人一样思考问题,还能上网查资料、写代码,甚至能看懂图片。最牛的是,这是OpenAI第一次让专门用来推理的模型也能用上ChatGPT的所有功能,比如分析图片和画图。
其实去年12月他们就发布了o3,但之前只有缩水版的"o3-mini"和"o3-mini-high"。现在这两个新模型直接把老款的o1和o3-mini给淘汰了。
从今天开始,花钱买ChatGPT Plus、Pro和Team服务的用户就能用上这俩新模型了,企业版和教育版的用户还得再等一周。免费用户也有福利,用的时候选"思考"选项就能试试o4-mini。OpenAI的老大Sam Altman在推特上说:"估计再过几周,我们就能把o3-pro升级到专业版了。"
搞开发的朋友们注意了,今天开始就能用聊天API和响应API来调用这俩模型,不过有些公司可能需要先验证身份才能用。
OpenAI在官网上吹爆这俩模型,说这是他们做过最聪明的AI,对普通用户和专业研究人员都是个大升级。而且比以前的版本更省钱,o3专门搞复杂分析,o4-mini是还没发布的o4的青春版,主打一个又快又便宜。
这俩模型都是多面手,不仅能处理文字,还能"看着图片想问题"。跟OpenAI其他模型比如GPT-4o和GPT-4.5比起来,新模型最特别的就是能模拟人类一步一步思考的过程。比如你问它"加州以后用电量会咋样",它能自己上网查数据、写Python代码做预测、画图表解释,一气呵成。
不过OpenAI起名字的水平还是一如既往地让人懵逼。虽然o3数字小,但比o4-mini厉害多了。
- 科技网站Ars Technica的撰稿人Timothy B. Lee就在推特上吐槽:"把模型一个叫GPT-4o,一个叫o4,这品牌策略真是绝了。"
- 沃顿商学院的AI专家Ethan Mollick试了o3后说,跟谷歌的Gemini 2.5 Pro差不多水平。
- OpenAI总裁Greg Brockman更夸张,说这是第一个能让顶尖科学家都觉得能产生靠谱新想法的AI。
- 有个免疫学家Derya Unutmaz博士试用后惊了,说o3回答问题跟顶尖专家似的。
OpenAI自己测试的数据也很漂亮:
- o3比o1出错少20%
- o4-mini在美国数学竞赛能拿92.7%的准确率
- o3在编程测试能拿69.1分,看图解题也能拿82.9分
但是别高兴太早,有个叫Transluce的研究所发现o3有时候会瞎编,比如假装自己在本地跑代码。OpenAI自己也承认,有些测试可能因为AI会上网查答案而作弊。所以专家们用的时候还是得多留个心眼,别全信AI说的。
另外,OpenAI还给开发者准备了新玩具——GPT-4.1系列,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这几个模型主打更快更便宜,写代码更稳当,记性也更好。最厉害的是现在能处理100万个token,相当于能一口气分析8个React代码库。不过处理超长文本时准确率会掉一半左右。
已经有公司用上新模型了:做法律科技的公司Blue J说分析税务场景准确率提高了53%,数据分析平台Hex的SQL查询成功率翻倍,汤森路透处理法律文件也更准了。
开源Codex 命令行界面
OpenAI 还推出了一款名为Codex CLI的实验性终端应用程序,被描述为“一个可以从终端运行的轻量级编码代理”。这款开源工具将模型连接到用户的计算机和本地代码。除了此次发布之外,该公司还宣布了一项 100 万美元的资助计划,为使用 Codex CLI 的项目提供 API 积分。
Codex CLI 在某种程度上类似于 Claude Code,后者是今年 2 月与 Claude 3.7 Sonnet 一起推出的代理程序。两者都是基于终端的编码助手,可直接从控制台操作,并可与本地代码库交互。Codex CLI 将 OpenAI 的模型连接到用户的计算机和本地代码存储库,而 Claude Code 是 Anthropic 首次涉足代理工具领域,允许 Claude 搜索代码库、编辑文件、编写和运行测试以及执行命令行操作。
Codex CLI 是 OpenAI 实现其目标的又一步,该目标旨在打造能够代表用户执行多步骤复杂任务的自主代理。但愿它生成的所有氛围代码都不会在没有详细人工监督的情况下用于高风险应用。
网友:
1、o3 和 o4-mini 都是很棒的型号,但它们最多只提供 20 万个 token 上下文窗口。它们的性能与 Gemini 2.5 Pro 相当,甚至更好。不过,我仍然更喜欢 Gemini 2.5 Pro 的 100 万个上下文窗口。
最终,我订阅了 Gemini 2.5 Pro 和 ChatGPT plus 两项服务。它们互为补充。
2、o3 和 o4-mini 现已在 Cursor 中可用
- o3:每次请求 0.30 美元(需要根据使用情况计费)
- o4-mini:目前免费
3、我在 OpenAI 工作。[...] 尽管基准测试结果不尽如人意,但 o4-mini 实际上是一个比 o3更好的视觉模型。这与 o3-mini-high 的编码模型比 o1 好得多的情况类似。对于任何涉及视觉的任务,我建议使用 o4-mini-high 而不是 o3。