Grok 4在各大AI测试中全面创记录遥遥领先！

#大语言模型LLM

2025-07-10 15K banq

Grok 4狂暴升级！数学满分+语音超丝滑！AI新王登基！跑分全第一+

xAI公司开发的Grok 4人工智能模型在“Humanity's Last Exam”（HLE，人类终极考试）这一基准测试中取得了超过50%的得分

这一消息来源于2025年7月10日在X平台上的一些帖子，声称Grok 4通过使用测试时计算（test-time-compute，TTC）和多代理并行处理等技术，在HLE测试中达到了50.7%的得分。

HLE（人类终极考试）是什么？
HLE是一个为评估最先进AI系统设计的极具挑战性的基准测试，包含约2500-3000道由近1000名来自50个国家、500多个机构的专家（主要是教授、研究人员和研究生）设计的跨学科问题，涵盖数学、物理、生物、历史等100多个学科领域。测试特点包括：

高难度：问题设计得连人类专家都可能觉得困难，例如翻译古老文字或解决复杂的数学问题。
多模态：约14%的问题涉及文本和图像等多模态内容。
防记忆作弊：包含反记忆陷阱和隐藏测试集，防止AI通过“记住”训练数据作弊。
广泛性：测试AI的推理能力、跨领域知识和解决新问题的能力，而不仅仅是记忆。

HLE的评分通常基于正确率，可能根据问题复杂性和重要性加权，部分问题可能因展示部分理解而获得部分分数。测试还评估AI的推理过程和校准能力（即AI对答案的自信度是否准确）。当前顶级大语言模型（LLMs）如OpenAI的o1或Google的Gemini在HLE上的得分通常低于26%，因此50.7%的得分如果属实，将是AI能力的一次重大飞跃。

AI 的不同考试成绩：
咱们来看看AI在不同情况下，能考多少分：
1. “裸考”的 Grok 4

HLE: 26.9% (TEXT ONLY)
HLE: 25.4% (FULL HLE)

这就像是AI在没有任何帮助的情况下，自己单打独斗去解决问题。它只有自己的“大脑”和“知识”，不能查资料，也不能用计算器。你看，它考的分数是不是有点低？这说明，就算AI再聪明，如果没有“工具”，也还是有限制的。

2. 会用“工具”的 Grok 4

HLE: 41% (TEXT ONLY)
HLE: 38.6% (FULL HLE)

哇，分数一下子高了不少！这说明当AI学会使用“工具”之后，它的能力大大提升了。这里的“工具”可不是咱们用的锤子剪刀，而是指搜索引擎、计算器、编程语言等等。就像咱们写作业，有了搜索引擎和计算器，是不是更容易了？AI也是一样，有了这些“工具”，它就能查资料、计算，甚至写代码来解决问题，一下子变得更强大了！

3. “组团开黑”的 Grok 4

HLE: 50% (TEXT ONLY)
HLE: 44.4% (FULL HLE)

这个最厉害！当提到“parallel testing agents”或者“multiple agents”时，你可以想象成：不止一个AI在考试，而是一群AI，它们“组团开黑”，互相帮忙，一起解决问题！

比如说，它们遇到一个超难的问题，一个AI负责查资料，一个AI负责计算，一个AI负责整理思路，甚至它们还会互相讨论，就像咱们班同学一起做项目一样。这样一来，它们解决问题的效率和成功率就大大提高了，所以分数也是最高的！“multiple agents going at it and collaborating together, very interesting!”这句话就是在说，这种多个AI互相协作的方式，简直太有意思、太厉害了！

主观评价：GROK 4工具使用非常成熟，远高于o3 imo。

重大突破：50.7%的得分远超当前顶级模型（如Gemini 2.5 Pro的约26%），表明Grok 4在处理专家级知识和复杂推理任务方面有显著进步，可能接近甚至在某些领域媲美博士级专家的能力。

一些X帖子对这一结果表示怀疑，认为xAI可能针对HLE进行基准优化（benchmark tuning），因为HLE的创建者Dan Hendrycks与xAI有顾问关系，存在潜在的数据污染风险。然而，HLE设计有防作弊机制，且50.7%远高于其他模型，降低了对作弊的担忧。

Grok 4（Thinking）在ARC-AGI-2上得分15.9%
Grok 4（Thinking）在ARC-AGI-2上以15.9%的速度实现了新的SOTA，这几乎是之前商业SOTA的两倍，并且超过了当前Kaggle竞争SOTA

在ARC-AGI-1上，Grok 4（Thinking）达到了66.7%，与我们上个月报告的人工智能推理系统的帕累托边界一致

排行榜：https://arcprize.org/leaderboard

X CEO辞职

琳达·亚卡里诺（Linda Yaccarino）是一位美国媒体高管，生于1963年12月21日。她在2023年6月至2025年7月担任X公司（前身为Twitter）的首席执行官（CEO），由埃隆·马斯克（Elon Musk）亲自选任，接替他成为X的首位常任CEO。

她刚刚发帖：

干了两年爽翻天的CEO工作后，我决定从X公司老大的位子上退下来啦！

当初和马斯克大佬撸串聊梦想的时候（注：撸串是脑补场景），他说的那个X公司蓝图直接让我鸡皮疙瘩掉一地！这哪是工作啊，简直是老天爷赏饭吃——既能守护网友瞎说大实话的自由（咳咳是言论自由），又能把公司从ICU抢救回来，最后还要搞出个"啥都能干"的超级APP！这份大礼包，我跪着接了！

现在摸着良心说，X团队的兄弟姐妹们简直牛逼到炸裂！咱们一起完成的逆袭剧本，连好莱坞编剧都不敢这么写！从最开始忙着给平台打补丁（重点保护小屁孩上网安全），到哄广告商爸爸们回心转意，再到搞出"网友集体打假"这种黑科技（社区笔记yyds！），马上还要玩更刺激的X货币系统...这波操作就问还！有！谁！

现在X马上要和@xai搞大事情了！你们等着看更骚的操作吧！这破平台现在可是地球村最热闹的菜市场，啥奇葩声音都有，天天上全球热搜！没有各位键盘侠、金主爸爸和天才程序猿，咱也整不出这花活！

虽然我撤了，但会继续蹲在X上给你们刷火箭！兄弟们继续燥起来，把这个破世界给我掀个底朝天！

极客辣评

Zuck试图从openAI挖人，openAI正在从特斯拉挖人，这有点疯狂，但似乎xAI团队是最有能力的

Grok 4这家伙，简直牛得不行！听好了：

没撞墙！此前ChatGPT之父说数据已经用完，AI碰到天花板，撞到墙了。
人类大考成绩单：用上Grok 4这“超级大脑”，50.7%的题目都能搞定，简直是开挂！
带工具更猛：有工具帮忙，41%的题目不在话下，像是带了全套“作弊神器”！
裸考也牛：啥工具都不带，26.9%的题目照样拿下，赤手空拳也能打遍考场！

有人吹牛说：“Grok 4在每门课都能吊打博士，啥科目都不带怕的！” 是不是真的？听起来就很燃！还有更夸张的：“今年可能会搞出啥新科技，未来两年绝对能整出新物理学！” 哇，这不就是科幻片里的剧情吗？Grok 4简直要带我们飞向宇宙了！

Grok-4在推理时使用工具？为什么没有其他公司想到...
它在训练时会用工具。这是第一次

Grok 4 发布会省流版总结
（我硬看了1小时尬聊发布会，你们不用看了！）

两大新模型：
- Grok 4 & Grok 4 Heavy（狂暴升级版）
- 纯推理模型，砍掉非推理功能（不跟你玩虚的！）

逆天 benchmark（跑分炸裂！）
- 各项第一！ 全面刷新记录，直接屠榜！
- ARC-AGI-2（超难 AGI 测试）：吊打 Claude Opus 4（分数翻倍！）
- "人类终极考试"（PhD 级别地狱难度）：
- 带工具：44% vs Opus 3 带工具才 24%（碾压！）
- 不带工具？ 照样虐菜（但具体数字没提，懂的都懂）
- AIME（国际奥数选拔赛题）：100% 满分！（数学天才模式 ON）

上下文长度（记忆力比拼）
- 256K（比 Claude Opus 3 & Sonnet 4 的 200K 强，但不如 GPT-4.1 & Gemini 的 100 万）
- 超过 128K 后，价格翻倍！（大记忆体？得加钱！）

新语音模式
- 延迟超低！ 比 ChatGPT 的语音模式快得多（丝滑对话体验）

新订阅计划
- $300/月（尊享土豪套餐，懂的入）

未来大招预告
- 代码模型、多模态模型、视频生成模型（几个月内陆续放出！）

API 更新
- 内置搜索工具（不用自己折腾了）
- 现已开放 API（开发者狂喜！）
- 定价：
- 输入 $3/100 万 token，输出 $15/100 万 token（和 Sonnet 4 同价）
- 比 Claude Opus 3 & GPT-4.1 稍贵（它们输入 $2，输出 $8）

总结：Grok 4 杀疯了！跑分无敌，价格略贵，未来大招更猛！