Grok 4在各大AI测试中全面创记录遥遥领先!


Grok 4狂暴升级!数学满分+语音超丝滑!AI新王登基!跑分全第一+

xAI公司开发的Grok 4人工智能模型在“Humanity's Last Exam”(HLE,人类终极考试)这一基准测试中取得了超过50%的得分


这一消息来源于2025年7月10日在X平台上的一些帖子,声称Grok 4通过使用测试时计算(test-time-compute,TTC)和多代理并行处理等技术,在HLE测试中达到了50.7%的得分。


HLE(人类终极考试)是什么?
HLE是一个为评估最先进AI系统设计的极具挑战性的基准测试,包含约2500-3000道由近1000名来自50个国家、500多个机构的专家(主要是教授、研究人员和研究生)设计的跨学科问题,涵盖数学、物理、生物、历史等100多个学科领域。测试特点包括:

  • 高难度:问题设计得连人类专家都可能觉得困难,例如翻译古老文字或解决复杂的数学问题。
  • 多模态:约14%的问题涉及文本和图像等多模态内容。
  • 防记忆作弊:包含反记忆陷阱和隐藏测试集,防止AI通过“记住”训练数据作弊。
  • 广泛性:测试AI的推理能力、跨领域知识和解决新问题的能力,而不仅仅是记忆。

HLE的评分通常基于正确率,可能根据问题复杂性和重要性加权,部分问题可能因展示部分理解而获得部分分数。测试还评估AI的推理过程和校准能力(即AI对答案的自信度是否准确)。当前顶级大语言模型(LLMs)如OpenAI的o1或Google的Gemini在HLE上的得分通常低于26%,因此50.7%的得分如果属实,将是AI能力的一次重大飞跃。


AI 的不同考试成绩:
咱们来看看AI在不同情况下,能考多少分:
1. “裸考”的 Grok 4

  • HLE: 26.9% (TEXT ONLY)
  • HLE: 25.4% (FULL HLE)
这就像是AI在没有任何帮助的情况下,自己单打独斗去解决问题。它只有自己的“大脑”和“知识”,不能查资料,也不能用计算器。你看,它考的分数是不是有点低?这说明,就算AI再聪明,如果没有“工具”,也还是有限制的。

2. 会用“工具”的 Grok 4

  • HLE: 41% (TEXT ONLY)
  • HLE: 38.6% (FULL HLE)
哇,分数一下子高了不少!这说明当AI学会使用“工具”之后,它的能力大大提升了。这里的“工具”可不是咱们用的锤子剪刀,而是指搜索引擎、计算器、编程语言等等。就像咱们写作业,有了搜索引擎和计算器,是不是更容易了?AI也是一样,有了这些“工具”,它就能查资料、计算,甚至写代码来解决问题,一下子变得更强大了!

3. “组团开黑”的 Grok 4

  • HLE: 50% (TEXT ONLY)
  • HLE: 44.4% (FULL HLE)
这个最厉害!当提到“parallel testing agents”或者“multiple agents”时,你可以想象成:不止一个AI在考试,而是一群AI,它们“组团开黑”,互相帮忙,一起解决问题!

比如说,它们遇到一个超难的问题,一个AI负责查资料,一个AI负责计算,一个AI负责整理思路,甚至它们还会互相讨论,就像咱们班同学一起做项目一样。这样一来,它们解决问题的效率和成功率就大大提高了,所以分数也是最高的!“multiple agents going at it and collaborating together, very interesting!”这句话就是在说,这种多个AI互相协作的方式,简直太有意思、太厉害了!


主观评价:GROK 4工具使用非常成熟,远高于o3 imo。


重大突破:50.7%的得分远超当前顶级模型(如Gemini 2.5 Pro的约26%),表明Grok 4在处理专家级知识和复杂推理任务方面有显著进步,可能接近甚至在某些领域媲美博士级专家的能力。


一些X帖子对这一结果表示怀疑,认为xAI可能针对HLE进行基准优化(benchmark tuning),因为HLE的创建者Dan Hendrycks与xAI有顾问关系,存在潜在的数据污染风险。然而,HLE设计有防作弊机制,且50.7%远高于其他模型,降低了对作弊的担忧。

Grok 4(Thinking)在ARC-AGI-2上得分15.9%
Grok 4(Thinking)在ARC-AGI-2上以15.9%的速度实现了新的SOTA,这几乎是之前商业SOTA的两倍,并且超过了当前Kaggle竞争SOTA

在ARC-AGI-1上,Grok 4(Thinking)达到了66.7%,与我们上个月报告的人工智能推理系统的帕累托边界一致

排行榜:https://arcprize.org/leaderboard



X CEO辞职
 
琳达·亚卡里诺(Linda Yaccarino)是一位美国媒体高管,生于1963年12月21日。她在2023年6月至2025年7月担任X公司(前身为Twitter)的首席执行官(CEO),由埃隆·马斯克(Elon Musk)亲自选任,接替他成为X的首位常任CEO。

她刚刚发帖:

干了两年爽翻天的CEO工作后,我决定从X公司老大的位子上退下来啦!

当初和马斯克大佬撸串聊梦想的时候(注:撸串是脑补场景),他说的那个X公司蓝图直接让我鸡皮疙瘩掉一地!这哪是工作啊,简直是老天爷赏饭吃——既能守护网友瞎说大实话的自由(咳咳是言论自由),又能把公司从ICU抢救回来,最后还要搞出个"啥都能干"的超级APP!这份大礼包,我跪着接了!

现在摸着良心说,X团队的兄弟姐妹们简直牛逼到炸裂!咱们一起完成的逆袭剧本,连好莱坞编剧都不敢这么写!从最开始忙着给平台打补丁(重点保护小屁孩上网安全),到哄广告商爸爸们回心转意,再到搞出"网友集体打假"这种黑科技(社区笔记yyds!),马上还要玩更刺激的X货币系统...这波操作就问还!有!谁!

现在X马上要和@xai搞大事情了!你们等着看更骚的操作吧!这破平台现在可是地球村最热闹的菜市场,啥奇葩声音都有,天天上全球热搜!没有各位键盘侠、金主爸爸和天才程序猿,咱也整不出这花活!

虽然我撤了,但会继续蹲在X上给你们刷火箭!兄弟们继续燥起来,把这个破世界给我掀个底朝天!




极客辣评


Zuck试图从openAI挖人,openAI正在从特斯拉挖人,这有点疯狂,但似乎xAI团队是最有能力的


Grok 4这家伙,简直牛得不行!听好了:
  • 没撞墙! 此前ChatGPT之父说数据已经用完,AI碰到天花板,撞到墙了。
  • 人类大考成绩单:用上Grok 4这“超级大脑”,50.7%的题目都能搞定,简直是开挂!
  • 带工具更猛:有工具帮忙,41%的题目不在话下,像是带了全套“作弊神器”!
  • 裸考也牛:啥工具都不带,26.9%的题目照样拿下,赤手空拳也能打遍考场!
有人吹牛说:“Grok 4在每门课都能吊打博士,啥科目都不带怕的!” 是不是真的?听起来就很燃!还有更夸张的:“今年可能会搞出啥新科技,未来两年绝对能整出新物理学!” 哇,这不就是科幻片里的剧情吗?Grok 4简直要带我们飞向宇宙了!


Grok-4在推理时使用工具?为什么没有其他公司想到...
它在训练时会用工具。这是第一次


Grok 4 发布会省流版总结  
(我硬看了1小时尬聊发布会,你们不用看了!)  

两大新模型:  
- Grok 4 & Grok 4 Heavy(狂暴升级版)  
- 纯推理模型,砍掉非推理功能(不跟你玩虚的!)  

逆天 benchmark(跑分炸裂!)  
- 各项第一! 全面刷新记录,直接屠榜!  
- ARC-AGI-2(超难 AGI 测试)吊打 Claude Opus 4(分数翻倍!)  
- "人类终极考试"(PhD 级别地狱难度):  
  - 带工具:44% vs Opus 3 带工具才 24%(碾压!)  
  - 不带工具? 照样虐菜(但具体数字没提,懂的都懂)  
- AIME(国际奥数选拔赛题)100% 满分!(数学天才模式 ON)  

上下文长度(记忆力比拼)  
- 256K(比 Claude Opus 3 & Sonnet 4 的 200K 强,但不如 GPT-4.1 & Gemini 的 100 万)  
- 超过 128K 后,价格翻倍!(大记忆体?得加钱!)  

新语音模式  
- 延迟超低! 比 ChatGPT 的语音模式快得多(丝滑对话体验)  

新订阅计划  
- $300/月(尊享土豪套餐,懂的入)  

未来大招预告  
- 代码模型、多模态模型、视频生成模型(几个月内陆续放出!)  

API 更新  
- 内置搜索工具(不用自己折腾了)  
- 现已开放 API(开发者狂喜!)  
- 定价:  
  - 输入 $3/100 万 token,输出 $15/100 万 token(和 Sonnet 4 同价)  
  - 比 Claude Opus 3 & GPT-4.1 稍贵(它们输入 $2,输出 $8)  

总结:Grok 4 杀疯了!跑分无敌,价格略贵,未来大招更猛!