Grok 4狂暴升级!数学满分+语音超丝滑!AI新王登基!跑分全第一+
xAI公司开发的Grok 4人工智能模型在“Humanity's Last Exam”(HLE,人类终极考试)这一基准测试中取得了超过50%的得分
这一消息来源于2025年7月10日在X平台上的一些帖子,声称Grok 4通过使用测试时计算(test-time-compute,TTC)和多代理并行处理等技术,在HLE测试中达到了50.7%的得分。
HLE(人类终极考试)是什么?
HLE是一个为评估最先进AI系统设计的极具挑战性的基准测试,包含约2500-3000道由近1000名来自50个国家、500多个机构的专家(主要是教授、研究人员和研究生)设计的跨学科问题,涵盖数学、物理、生物、历史等100多个学科领域。测试特点包括:
- 高难度:问题设计得连人类专家都可能觉得困难,例如翻译古老文字或解决复杂的数学问题。
- 多模态:约14%的问题涉及文本和图像等多模态内容。
- 防记忆作弊:包含反记忆陷阱和隐藏测试集,防止AI通过“记住”训练数据作弊。
- 广泛性:测试AI的推理能力、跨领域知识和解决新问题的能力,而不仅仅是记忆。
AI 的不同考试成绩:
咱们来看看AI在不同情况下,能考多少分:
1. “裸考”的 Grok 4
- HLE: 26.9% (TEXT ONLY)
- HLE: 25.4% (FULL HLE)
2. 会用“工具”的 Grok 4
- HLE: 41% (TEXT ONLY)
- HLE: 38.6% (FULL HLE)
3. “组团开黑”的 Grok 4
- HLE: 50% (TEXT ONLY)
- HLE: 44.4% (FULL HLE)
比如说,它们遇到一个超难的问题,一个AI负责查资料,一个AI负责计算,一个AI负责整理思路,甚至它们还会互相讨论,就像咱们班同学一起做项目一样。这样一来,它们解决问题的效率和成功率就大大提高了,所以分数也是最高的!“multiple agents going at it and collaborating together, very interesting!”这句话就是在说,这种多个AI互相协作的方式,简直太有意思、太厉害了!
主观评价:GROK 4工具使用非常成熟,远高于o3 imo。
重大突破:50.7%的得分远超当前顶级模型(如Gemini 2.5 Pro的约26%),表明Grok 4在处理专家级知识和复杂推理任务方面有显著进步,可能接近甚至在某些领域媲美博士级专家的能力。
一些X帖子对这一结果表示怀疑,认为xAI可能针对HLE进行基准优化(benchmark tuning),因为HLE的创建者Dan Hendrycks与xAI有顾问关系,存在潜在的数据污染风险。然而,HLE设计有防作弊机制,且50.7%远高于其他模型,降低了对作弊的担忧。
Grok 4(Thinking)在ARC-AGI-2上得分15.9%
Grok 4(Thinking)在ARC-AGI-2上以15.9%的速度实现了新的SOTA,这几乎是之前商业SOTA的两倍,并且超过了当前Kaggle竞争SOTA
在ARC-AGI-1上,Grok 4(Thinking)达到了66.7%,与我们上个月报告的人工智能推理系统的帕累托边界一致
排行榜:https://arcprize.org/leaderboard
X CEO辞职
琳达·亚卡里诺(Linda Yaccarino)是一位美国媒体高管,生于1963年12月21日。她在2023年6月至2025年7月担任X公司(前身为Twitter)的首席执行官(CEO),由埃隆·马斯克(Elon Musk)亲自选任,接替他成为X的首位常任CEO。
她刚刚发帖:
干了两年爽翻天的CEO工作后,我决定从X公司老大的位子上退下来啦!
当初和马斯克大佬撸串聊梦想的时候(注:撸串是脑补场景),他说的那个X公司蓝图直接让我鸡皮疙瘩掉一地!这哪是工作啊,简直是老天爷赏饭吃——既能守护网友瞎说大实话的自由(咳咳是言论自由),又能把公司从ICU抢救回来,最后还要搞出个"啥都能干"的超级APP!这份大礼包,我跪着接了!
现在摸着良心说,X团队的兄弟姐妹们简直牛逼到炸裂!咱们一起完成的逆袭剧本,连好莱坞编剧都不敢这么写!从最开始忙着给平台打补丁(重点保护小屁孩上网安全),到哄广告商爸爸们回心转意,再到搞出"网友集体打假"这种黑科技(社区笔记yyds!),马上还要玩更刺激的X货币系统...这波操作就问还!有!谁!
现在X马上要和@xai搞大事情了!你们等着看更骚的操作吧!这破平台现在可是地球村最热闹的菜市场,啥奇葩声音都有,天天上全球热搜!没有各位键盘侠、金主爸爸和天才程序猿,咱也整不出这花活!
虽然我撤了,但会继续蹲在X上给你们刷火箭!兄弟们继续燥起来,把这个破世界给我掀个底朝天!
极客辣评
Zuck试图从openAI挖人,openAI正在从特斯拉挖人,这有点疯狂,但似乎xAI团队是最有能力的
Grok 4这家伙,简直牛得不行!听好了:
- 没撞墙! 此前ChatGPT之父说数据已经用完,AI碰到天花板,撞到墙了。
- 人类大考成绩单:用上Grok 4这“超级大脑”,50.7%的题目都能搞定,简直是开挂!
- 带工具更猛:有工具帮忙,41%的题目不在话下,像是带了全套“作弊神器”!
- 裸考也牛:啥工具都不带,26.9%的题目照样拿下,赤手空拳也能打遍考场!
Grok-4在推理时使用工具?为什么没有其他公司想到...
它在训练时会用工具。这是第一次
Grok 4 发布会省流版总结
(我硬看了1小时尬聊发布会,你们不用看了!)
两大新模型:
- Grok 4 & Grok 4 Heavy(狂暴升级版)
- 纯推理模型,砍掉非推理功能(不跟你玩虚的!)
逆天 benchmark(跑分炸裂!)
- 各项第一! 全面刷新记录,直接屠榜!
- ARC-AGI-2(超难 AGI 测试):吊打 Claude Opus 4(分数翻倍!)
- "人类终极考试"(PhD 级别地狱难度):
- 带工具:44% vs Opus 3 带工具才 24%(碾压!)
- 不带工具? 照样虐菜(但具体数字没提,懂的都懂)
- AIME(国际奥数选拔赛题):100% 满分!(数学天才模式 ON)
上下文长度(记忆力比拼)
- 256K(比 Claude Opus 3 & Sonnet 4 的 200K 强,但不如 GPT-4.1 & Gemini 的 100 万)
- 超过 128K 后,价格翻倍!(大记忆体?得加钱!)
新语音模式
- 延迟超低! 比 ChatGPT 的语音模式快得多(丝滑对话体验)
新订阅计划
- $300/月(尊享土豪套餐,懂的入)
未来大招预告
- 代码模型、多模态模型、视频生成模型(几个月内陆续放出!)
API 更新
- 内置搜索工具(不用自己折腾了)
- 现已开放 API(开发者狂喜!)
- 定价:
- 输入 $3/100 万 token,输出 $15/100 万 token(和 Sonnet 4 同价)
- 比 Claude Opus 3 & GPT-4.1 稍贵(它们输入 $2,输出 $8)
总结:Grok 4 杀疯了!跑分无敌,价格略贵,未来大招更猛!