Gemini 2.5 Pro更新版本碾压Claude4

#大语言模型LLM #vibe编程

2025-06-06 2K banq

最新的Gemini 2.5 Pro更新现已进入预览版。它在编码、推理、科学+数学方面更出色，在关键基准测试（AIDER Polyglot、GPQA、HLE等）中表现出更好的性能，并领先于上一个版本，Elo得分跃升了24分！

Gemini 2.5 Pro在三个不同领域的性能表现：推理与知识、科学和编程。每个领域都有三个不同的评估标准或测试，分别是：

科学（Science）：

测试名称：GPQA（单次尝试）
结果：
- Gemini 2.5 Pro：86.4%
- OpenAI G3：83.3%
- Claude Opus 4：79.6%
- DeepSeek R1：81.0%

编程（Coding）：

测试名称：Aider Polyglot（多语言助手）
结果：
- Gemini 2.5 Pro：82.2%
- OpenAI G3：79.6%
- Claude Opus 4：72.0%
- DeepSeek R1：71.6%

每个领域都显示了不同模型在特定测试中的表现，Gemini 2.5 Pro在所有测试中都表现出色，尤其是在科学领域的GPQA测试中，得分最高（86.4%）。这些数据表明Gemini 2.5 Pro在推理、科学和编程方面都具有较强的能力。

可以在 AI Studio、Vertex AI 和 Geminiapp 中试验。GA 即将推出！

一项完整测试数据：
在不同任务上的性能比较：

模型和版本：

价格：

任务性能：

任务包括“呈现知识”、“GPQA diamond”、“数学”、“代码生成”、“编码编辑”、“代理编码”、“SWE-bench 验证”、“事实性”、“视觉推理”、“图像标注”、“视频理解”、“MRSI v2（8-needle）”和“多语言性能”。
每个任务都有不同的评估标准，如“单次尝试”、“多次尝试”、“差异”等。
各模型在不同任务上的表现差异较大。例如，在“呈现知识”任务中，GEMINI 2.5 PRO 的得分为 21.6%，而 CLAUDE OPUS 4 的得分为 10.7%。

总体性能：

网友热评：
1、等不及想让谷歌赶紧把那个能自动写代码的‘智能小助手agentic auto-coding’Jules搞利索了！虽然Opus 4单打独斗可能不太行，但它和Claude配合起来简直绝了——在编程比赛里杀疯了好吗！

2、其实我不太想让Jules自动写代码…它有时候根本搞不清楚状况。不是因为它看不懂自己的界面（那是Jules这个APP的问题），而是说——它里面那个Gemini AI啊，反应总是慢半拍，根本跟不上节奏！

3、我倒想看看，程序员们是不是更喜欢这个模型（而不是Claude 4）？