Gemini 2.5 Pro在三个不同领域的性能表现:推理与知识、科学和编程。每个领域都有三个不同的评估标准或测试,分别是:
- 推理与知识(Reasoning & Knowledge):
- 测试名称:Humanity's Last Exam(人类最后的考试)
- 评估标准:无工具(NO TOOLS)
- 结果:
- Gemini 2.5 Pro:21.6%
- OpenAI G3:20.3%
- Claude Opus 4:10.7%
- DeepSeek R1:14.0%
- 测试名称:GPQA(单次尝试)
- 结果:
- Gemini 2.5 Pro:86.4%
- OpenAI G3:83.3%
- Claude Opus 4:79.6%
- DeepSeek R1:81.0%
- 测试名称:Aider Polyglot(多语言助手)
- 结果:
- Gemini 2.5 Pro:82.2%
- OpenAI G3:79.6%
- Claude Opus 4:72.0%
- DeepSeek R1:71.6%
每个领域都显示了不同模型在特定测试中的表现,Gemini 2.5 Pro在所有测试中都表现出色,尤其是在科学领域的GPQA测试中,得分最高(86.4%)。这些数据表明Gemini 2.5 Pro在推理、科学和编程方面都具有较强的能力。
可以在 AI Studio、Vertex AI 和 Geminiapp 中试验。GA 即将推出!
一项完整测试数据:
在不同任务上的性能比较:
模型和版本:
- GEMINI 2.5 PRO(预览版,0.5-0.6 版本)
- OPENAI G3
- OPENAI O4-MINI 高
- CLAUDE OPUS 4(32k 微调)
- GROK 3 BETA(增强版)
- DEEPESEN R1(05-28)
- 输入价格和输出价格根据不同的模型有所不同,价格单位为美元。
- GEMINI 2.5 PRO 的输入价格为 $1.25,输出价格为 $10.00。
- 其他模型的输入价格从 $0.55 到 $15.00 不等,输出价格从 $2.19 到 $75.00 不等。
- 任务包括“呈现知识”、“GPQA diamond”、“数学”、“代码生成”、“编码编辑”、“代理编码”、“SWE-bench 验证”、“事实性”、“视觉推理”、“图像标注”、“视频理解”、“MRSI v2(8-needle)”和“多语言性能”。
- 每个任务都有不同的评估标准,如“单次尝试”、“多次尝试”、“差异”等。
- 各模型在不同任务上的表现差异较大。例如,在“呈现知识”任务中,GEMINI 2.5 PRO 的得分为 21.6%,而 CLAUDE OPUS 4 的得分为 10.7%。
- “Global MMLU (Lite)”的总体性能得分,GEMINI 2.5 PRO 得分为 89.2%。
网友热评:
1、等不及想让谷歌赶紧把那个能自动写代码的‘智能小助手agentic auto-coding’Jules搞利索了!虽然Opus 4单打独斗可能不太行,但它和Claude配合起来简直绝了——在编程比赛里杀疯了好吗!
2、其实我不太想让Jules自动写代码…它有时候根本搞不清楚状况。不是因为它看不懂自己的界面(那是Jules这个APP的问题),而是说——它里面那个Gemini AI啊,反应总是慢半拍,根本跟不上节奏!
3、我倒想看看,程序员们是不是更喜欢这个模型(而不是Claude 4)?
- 哪怕它只比Claude强那么一丢丢,公司也肯定愿意掏200刀/月,而不是用免费的Gemini——毕竟在写代码这事儿上,能多省2小时,这钱就值了!
- 问题是,Claude虽然不一定每次跑分都第一,但日常写代码是真TM好用!目前为止,我觉得它是最均衡的模型。”