Gemini奥赛吊打OpenAI!差距大到离谱


这张图片展示了Gemini 2.5 Pro Deep Think模式下在三个不同领域的性能对比:数学(Mathematics)、编程(Code)和多模态(Multimodality)。每个领域都有三个不同的模型或版本进行

比较:Gemini 2.5 Pro、Gemini 0.3和OpenAI的相应版本。

数学(Mathematics):
使用的数据集是USAMO 2025 (美国数学奥林匹克)。
Gemini 2.5 Pro的得分为49.4%,表现最好。
Gemini 0.3的得分为34.5%。
OpenAI的得分为21.7%,表现最差。
OpenAI的另一个版本(o4-mini)得分为19.1%。


编程(Code):
使用的数据集是LiveCodeBench v6。
Gemini 2.5 Pro的得分为80.4%,表现最好。
Gemini 0.3的得分为71.4%。
OpenAI的得分为71.1%,与Gemini 0.3相近。
OpenAI的另一个版本(o4-mini)得分为72.5%。


多模态(Multimodality):
使用的数据集是MMMU。
Gemini 2.5 Pro的得分为84.0%,表现最好。
Gemini 0.3的得分为79.6%。
OpenAI的得分为82.9%,表现接近Gemini 2.5 Pro。
OpenAI的另一个版本(o4-mini)得分为81.6%。

总结:

  • 在数学领域,Gemini 2.5 Pro表现显著优于其他版本。
  • 在编程领域,所有版本的表现相对接近,但Gemini 2.5 Pro仍然领先。
  • 在多模态领域,Gemini 2.5 Pro同样表现最好,但与其他版本的差距较小。

网友热评:
1、USAMO这比赛可不像选择题瞎蒙就行,它要你写出完整解题过程!评分还有点“玄学”——就像语文作文,除了标准答案,老师心情好可能多给你两分。(突然眯眼)我就好奇了:OpenAI是不是自己偷偷重考了一遍?说不定他们换了更溜的“作弊小抄”(提示词),或者找了个心软的老师(评分标准)?

但搞笑的是…(掏出放大镜)他们只从MathArena那儿抄了o3和o4-mini的成绩,其他模型分数直接照搬!这不就像抄作业只改前两题,后面连错别字都原样复制?(突然提高音量)要是他们给自家Gemini 2.5 Pro“放水打分”,但对OpenAI严格批卷——那不就是把榴莲和苹果放一起比谁香?太鸡贼了吧!

(小声嘀咕)当然MathArena也不一定绝对公平…最理想的情况是让USAMO官方阅卷组来批(但就算这样,每年评分也可能像奶茶店员工——今天手抖多糖,明天忘加珍珠)。现在这情况简直像比较不同人手机里的美颜自拍,根本不知道原图长啥样啊!

(最后翻个白眼)总结:这帮搞AI的卷比赛成绩,卷得跟学霸争年级排名似的,连“少写个解字扣不扣分”都要算计!

2、OpenAI的现状:裸泳之王?
Gemini(谷歌)在山顶蹦迪
人家谷歌已经站在AI珠穆朗玛峰顶上了(技术+资源全拉满),OpenAI还在半山腰吭哧吭哧爬坡,能不慌吗?
比喻:就像学霸Gemini保送清华了,OpenAI还在熬夜刷五三,结果发现题库还是人家谷歌出的!

OpenAI的底裤:只剩「模型优势」
他们现在唯一能吹的就是“我们的ChatGPT更聪明”,但其他方面全是短板:
没TPU(谷歌自研芯片,相当于打游戏用4090显卡,OpenAI还在用网吧二手机)
没数据特权(谷歌有YouTube/Gmail/搜索的海量数据,OpenAI只能扒公开网页)
没生态(谷歌全家桶:安卓/Gmail/云服务随便集成AI,OpenAI得求着别人用)
没钱任性(谷歌亏100亿当零花钱,OpenAI融到50亿就上头条)
没人!(谷歌AI研究员多到能组足球队,OpenAI主力还被挖角…)

护城河?不存在的!
MOAT(护城河)= 城墙+鳄鱼+弓箭手,OpenAI的城墙是纸糊的:
模型开源?立马被抄!(比如Llama3)
盈利模式?充会员+企业版,但企业嫌贵跑去找Gemini…
和微软的“蜜月期”快变“离婚冷静期”了——微软自己搞小模型,Azure客户还抱怨OpenAI接口太贵!

终极暴击:
“OpenAI就像个天赋异禀的穷学生,靠一篇《我的区长爸爸》作文拿了竞赛第一,结果发现评委是谷歌家的——下次比赛规则可能直接改成「禁止使用比喻句」!”
(摊手)所以现在OpenAI疯狂刷USAMO分数,大概是想证明:“我虽然穷,但我智商高啊!” —— 但谷歌反手就是一个48%正确率糊脸…(战术后仰)