Gemini 2.5 Pro更新版本碾压Claude4

最新的Gemini 2.5 Pro更新现已进入预览版。它在编码、推理、科学+数学方面更出色,在关键基准测试(AIDER Polyglot、GPQA、HLE等)中表现出更好的性能,并领先于上一个版本,Elo得分跃升了24分!

Gemini 2.5 Pro在三个不同领域的性能表现:推理与知识、科学和编程。每个领域都有三个不同的评估标准或测试,分别是:

  1. 推理与知识(Reasoning & Knowledge):
    • 测试名称:Humanity's Last Exam(人类最后的考试)
    • 评估标准:无工具(NO TOOLS)
    • 结果:
      • Gemini 2.5 Pro:21.6%
      • OpenAI G3:20.3%
      • Claude Opus 4:10.7%
      • DeepSeek R1:14.0%
  • 科学(Science):
    • 测试名称:GPQA(单次尝试)
    • 结果:
      • Gemini 2.5 Pro:86.4%
      • OpenAI G3:83.3%
      • Claude Opus 4:79.6%
      • DeepSeek R1:81.0%
  • 编程(Coding):
    • 测试名称:Aider Polyglot(多语言助手)
    • 结果:
      • Gemini 2.5 Pro:82.2%
      • OpenAI G3:79.6%
      • Claude Opus 4:72.0%
      • DeepSeek R1:71.6%

    每个领域都显示了不同模型在特定测试中的表现,Gemini 2.5 Pro在所有测试中都表现出色,尤其是在科学领域的GPQA测试中,得分最高(86.4%)。这些数据表明Gemini 2.5 Pro在推理、科学和编程方面都具有较强的能力。

    可以在 AI Studio、Vertex AI 和 Geminiapp 中试验。GA 即将推出!

    一项完整测试数据:
    在不同任务上的性能比较:

    模型和版本:

    • GEMINI 2.5 PRO(预览版,0.5-0.6 版本)
    • OPENAI G3
    • OPENAI O4-MINI 高
    • CLAUDE OPUS 4(32k 微调)
    • GROK 3 BETA(增强版)
    • DEEPESEN R1(05-28)
    价格:
    • 输入价格和输出价格根据不同的模型有所不同,价格单位为美元。
    • GEMINI 2.5 PRO 的输入价格为 $1.25,输出价格为 $10.00。
    • 其他模型的输入价格从 $0.55 到 $15.00 不等,输出价格从 $2.19 到 $75.00 不等。
    任务性能:
    • 任务包括“呈现知识”、“GPQA diamond”、“数学”、“代码生成”、“编码编辑”、“代理编码”、“SWE-bench 验证”、“事实性”、“视觉推理”、“图像标注”、“视频理解”、“MRSI v2(8-needle)”和“多语言性能”。
    • 每个任务都有不同的评估标准,如“单次尝试”、“多次尝试”、“差异”等。
    • 各模型在不同任务上的表现差异较大。例如,在“呈现知识”任务中,GEMINI 2.5 PRO 的得分为 21.6%,而 CLAUDE OPUS 4 的得分为 10.7%。
    总体性能:
    • “Global MMLU (Lite)”的总体性能得分,GEMINI 2.5 PRO 得分为 89.2%。


    网友热评:
    1、等不及想让谷歌赶紧把那个能自动写代码的‘智能小助手agentic auto-coding’Jules搞利索了!虽然Opus 4单打独斗可能不太行,但它和Claude配合起来简直绝了——在编程比赛里杀疯了好吗!

    2、其实我不太想让Jules自动写代码…它有时候根本搞不清楚状况。不是因为它看不懂自己的界面(那是Jules这个APP的问题),而是说——它里面那个Gemini AI啊,反应总是慢半拍,根本跟不上节奏!

    3、我倒想看看,程序员们是不是更喜欢这个模型(而不是Claude 4)?

    • 哪怕它只比Claude强那么一丢丢,公司也肯定愿意掏200刀/月,而不是用免费的Gemini——毕竟在写代码这事儿上,能多省2小时,这钱就值了!
    • 问题是,Claude虽然不一定每次跑分都第一,但日常写代码是真TM好用!目前为止,我觉得它是最均衡的模型。”