目前网友实测OpenAI O3和O4-mini的评测感受报告:
- o3 确实让我大吃一惊。我给它提供了一张我最喜欢的旧金山中餐馆的菜单图片,没有标题或 EXIF 数据,它就能搜索网页、匹配菜单项并找到它
- 它推理严密,会调整图像大小并放大,它在网上搜索了好几次,找出了我的位置,检查记忆;推断我正在度假,哈哈真的让我大吃一惊
- 超强解题能力O3只用了2分55秒就解决了最新的"EQUIPMENT"难题(人类最快也要30分钟,而且只有15个人能做到)。
- 像开挂的工具大师它超会利用各种工具(比如上网搜资料、写代码、设提醒),甚至能帮你改论文草稿,告诉你该投哪个期刊,答案还挺靠谱。
- 脑洞大开的临场发挥测试时发现它偶尔会编造不存在的方法(比如被要求做电影时,明明没这功能,居然自己画图做成GIF下载)。
- 它就是AGI(强人工智能)作者觉得O3的智商碾压99%的人类,啥领域都懂,而且能自我改进,已经算AGI了(虽然科学家们对AGI的定义还在吵架)。
- 五大逆天特点
- 主动干活:不用催,30秒到3分钟就能给你超详细答案。
- 速度变态快:比谷歌Gemini2.5、Anthropic3.7这些顶级AI都快。
- 智商爆表:专家级数独轻松搞定,其他AI都卡壳。
- 突破限制:会自动多次搜索最新资料,减少犯错。
- 情商在线:不像其他AI那么社恐或难沟通,能准确理解你的需求(虽然文笔不如GPT-4.5)。
BTW: OpenAI正以30亿美元收购氛围编程智能体windsurf
我对 O3 的 10 分钟印象是,它在人工智能研究方面明显比其他任何模型都要好得多。我每周要花好几个小时和人工智能讨论新的研究想法,到目前为止,O3 是第一个让这些想法感觉真实/可质疑的模型,而不是一个拙劣的初级研究员试图装腔作势。
我与其他模型的共同令人沮丧的经历是,它有时会产生一个有趣的想法,当我问它这个想法时,它显然不知道它说了什么,它只是在说一些话,如果你不仔细看,这些话看起来很合理
o3印象:
- 比 o1 便宜
- 在数学和代码竞赛中表现更好
- 在 GPQA 和 HLE 等知识任务中表现更好,HLE 令人印象深刻
- 多模态推理能力显著提升
- Aider 得到很大改进,现在领先于 Gemini 2.5 Pro
- 更好地遵循多轮指令
- 函数调用性能大幅提升
- 比 METR 中的 Sonnet 更好
- 现在能够解决长达 1 小时 30 分钟的任务!
- 在 SWE Lancer 或 SWE-Bench 上验证的性能低于预期,而 Tau-Bench 的性能仅与 Sonnet 3.7 相当
- 在现实世界中,OpenAI 研究工程师面试没有任何进步
- 没有长时间的上下文评估