OpenAI O3网友实测报告汇总

目前网友实测OpenAI O3和O4-mini的评测感受报告：

o3 确实让我大吃一惊。我给它提供了一张我最喜欢的旧金山中餐馆的菜单图片，没有标题或 EXIF 数据，它就能搜索网页、匹配菜单项并找到它
它推理严密，会调整图像大小并放大，它在网上搜索了好几次，找出了我的位置，检查记忆；推断我正在度假，哈哈真的让我大吃一惊
超强解题能力O3只用了2分55秒就解决了最新的"EQUIPMENT"难题（人类最快也要30分钟，而且只有15个人能做到）。
像开挂的工具大师它超会利用各种工具（比如上网搜资料、写代码、设提醒），甚至能帮你改论文草稿，告诉你该投哪个期刊，答案还挺靠谱。
脑洞大开的临场发挥测试时发现它偶尔会编造不存在的方法（比如被要求做电影时，明明没这功能，居然自己画图做成GIF下载）。
它就是AGI（强人工智能）作者觉得O3的智商碾压99%的人类，啥领域都懂，而且能自我改进，已经算AGI了（虽然科学家们对AGI的定义还在吵架）。
五大逆天特点
- 主动干活：不用催，30秒到3分钟就能给你超详细答案。
- 速度变态快：比谷歌Gemini2.5、Anthropic3.7这些顶级AI都快。
- 智商爆表：专家级数独轻松搞定，其他AI都卡壳。
- 突破限制：会自动多次搜索最新资料，减少犯错。
- 情商在线：不像其他AI那么社恐或难沟通，能准确理解你的需求（虽然文笔不如GPT-4.5）。

BTW： OpenAI正以30亿美元收购氛围编程智能体windsurf

我对 O3 的 10 分钟印象是，它在人工智能研究方面明显比其他任何模型都要好得多。我每周要花好几个小时和人工智能讨论新的研究想法，到目前为止，O3 是第一个让这些想法感觉真实/可质疑的模型，而不是一个拙劣的初级研究员试图装腔作势。

我与其他模型的共同令人沮丧的经历是，它有时会产生一个有趣的想法，当我问它这个想法时，它显然不知道它说了什么，它只是在说一些话，如果你不仔细看，这些话看起来很合理

o3印象：

比 o1 便宜
在数学和代码竞赛中表现更好
在 GPQA 和 HLE 等知识任务中表现更好，HLE 令人印象深刻
多模态推理能力显著提升
Aider 得到很大改进，现在领先于 Gemini 2.5 Pro
更好地遵循多轮指令
函数调用性能大幅提升
比 METR 中的 Sonnet 更好
现在能够解决长达 1 小时 30 分钟的任务！
在 SWE Lancer 或 SWE-Bench 上验证的性能低于预期，而 Tau-Bench 的性能仅与 Sonnet 3.7 相当
在现实世界中，OpenAI 研究工程师面试没有任何进步
没有长时间的上下文评估