Grok 4在NYT联想测试中超越O3-pro创新纪录


这个测试就像给AI大脑们做"纽约时报联想游戏"大考!原版有436道联想题,现在升级到651道超级加量版。题目规则是给你16个词,要分成4组"心有灵犀"的词(比如"篮球、足球、网球、羽毛球"都算球类运动)。但为了难倒AI,我们使了个坏——往每道题里偷偷塞进最多4个"捣蛋鬼词汇"(比如在一堆体育用词里混进"披萨"这种完全无关的词)。

截止2025年2月4日,最强AI(那个叫o1的)在原版已经能考90.7分快满分了,今年还有o3等更聪明的AI要来挑战。新版考试现在只需要猜对3组词就能过关(第4组会自动补全),但加了"捣蛋鬼词汇"后难度飙升——我们确保每个捣蛋词绝对不属于任何一组!虽然排行榜名次变化不大,但这下足够让o3级别AI也挠头了!

Leaderboard: Extended Version

Rank    Model    Score %    #Puzzles
1    Grok 4    92.4    651
2    o3-pro (medium reasoning)    87.3    651
3    o1-pro (medium reasoning)    82.5    651
4    o3 (high reasoning)    79.5    651
5    o4-mini (high reasoning)    74.7    651
6    o3 (medium reasoning)    74.0    651
7    o1 (medium reasoning)    70.8    651
8    o4-mini (medium reasoning)    68.8    651
9    o3-mini (high reasoning)    61.4    651
10    Gemini 2.5 Pro    58.7    651
11    Qwen 3 235B A22B    55.6    651
12    Gemini 2.5 Pro Exp 03-25    54.1    651
13    o3-mini (medium reasoning)    53.6    651
14    Claude Opus 4 Thinking 16K    52.7    651
15    DeepSeek R1 05/28    49.8    651
16    Gemini 2.5 Pro Preview 05-06    42.5    651
17    Claude Sonnet 4 Thinking 16K    41.4    651
18    Claude Sonnet 4 Thinking 64K    39.6    651
19    DeepSeek R1    38.6    651
20    Qwen 3 30B A3B    38.0    651
21    Qwen 3 32B    37.0    651
22    Claude Opus 4 (no reasoning)    34.8    651
23    GPT-4.5 Preview    34.2    651
24    Claude 3.7 Sonnet Thinking 16K    33.6    651
25    Qwen QwQ-32B 16K    31.4    651
26    Grok 3 Mini Beta (high)    30.9    651
27    o1-mini    26.9    651
28    Grok 3 Mini Beta (low)    26.0    651
29    Gemini 2.5 Flash Preview (24k)    25.8    651
30    Claude Sonnet 4 (no reasoning)    25.7    651
31    Quasar Alpha    25.4    651
32    GPT-4o Mar 2025    25.2    651
33    GPT-4.1    23.6    651
34    Gemini 2.0 Flash Think Exp 01-21    23.1    649
35    GPT-4o Feb 2025    22.7    651
36    Gemini 2.0 Pro Exp 02-05    21.7    651
37    MiniMax-M1    21.4    651
38    Grok 3 Beta (no reasoning)    20.3    651
39    Grok 2 12-12    19.2    651
40    Gemini 1.5 Pro (Sept)    19.2    601
41    Claude 3.7 Sonnet    19.2    651
42    Claude 3 Opus    19.2    651
43    Llama 4 Maverick    19.1    651
44    Gemini 2.0 Flash    18.8    651
45    GPT-4o 2024-11-20    18.7    601
46    Qwen 2.5 Max    18.0    651
47    Llama 4 Scout    17.9    651
48    GPT-4o 2024-08-06    17.8    601
49    Claude 3.5 Sonnet 2024-10-22    17.7    651
50    DeepSeek V3-0324    17.4    651
51    Llama 3.1 405B    16.2    651
52    Baidu Ernie 4.5 300B A47B    15.2    651
53    DeepSeek V3    15.1    651
54    Llama 3.3 70B    15.1    651
55    GPT-4.1 mini    15.1    651
56    MiniMax-Text-01    14.6    651
57    Cohere Command A    13.6    651
58    Mistral Large 2    12.6    651
59    Gemma 2 27B    12.2    651
60    Gemma 3 27B    11.8    651
61    Mistral Small 3.2    11.5    651
62    Mistral Medium 3    11.4    651
63    Mistral Small 3.1    11.4    651
64    Qwen 2.5 72B    11.1    651
65    Claude 3.5 Haiku    10.3    651
66    Microsoft Phi-4    10.2    651
67    Amazon Nova Pro    10.1    651
68    GPT-4o mini    9.9    651
69    Mistral Small 3    8.9    601
70    GPT-4.1 nano    8.6    651
71    GLM4-32B-0414    7.8    651
72    Claude 3 Haiku    2.2    601


人类 vs. AI:纽约时报《联想游戏》大比拼
想知道最强大脑AI和人类谁更会玩《纽约时报》的“联想游戏”吗?我们搞了一场公平对决!
人类战队数据:

  • 数据来源:2024年12月—2025年2月真实玩家的官方战绩(感谢网友Bryschien1996的统计)。
  • 人类玩家平均能解开71%的题目,但表现起伏很大——
    • 地狱模式日(比如2025年2月2日):只有39%的人能通关。
    • 新手福利日(比如2025年2月26日):98%的玩家轻松碾压!
  • 注意:玩这个游戏的都是自愿挑战的“高玩”,普通人可能更菜……
AI战队规则:为了让AI体验人类的痛苦,我们模拟真人玩法——
  1. 逐步试探:AI像人类一样,先猜一组词,系统会反馈“全对”“差一个”或“全错”。
  2. 容错机制:AI最多能错4次,超过就Game Over。

比赛结果公布!AI vs 人类,谁更胜一筹?
AI战队表现:

  • 顶级AI(比如OpenAI家的):轻松碾压普通人类玩家,解题能力稳居第一梯队!
  • DeepSeek R1:表现最接近《纽约时报》玩家的平均水平,算是AI里的“普通人水平”。
人类高玩秀操作:不过,真正的人类顶尖玩家可不服输!在同一时期,他们竟然达成了100%通关率,一道题都没错!这说明——
  • AI虽然强,但人类天花板更高!
  • 普通玩家平均只能解71%的题,但最强大脑们可是能全通的!
(所以结论是:AI整体比普通人强,但最厉害的人类玩家依然无人能敌!)

Grok4出现之前战绩:

  • o1(最强AI之一):胜率高达98.9%,离人类顶尖高手(100%通关)只差一点点!
  • o1-pro(尚未出战):实力未知,但很可能和人类最强大脑五五开!
关键胜负点:要判断AI是否真的超越人类,不能只看通关率,还得比细节——
  • 谁犯错更少? AI和人类在解每道题时,分别试错了几次?
  • 谁更快? 是一眼看出答案,还是反复试错才通关?


###极客辣评


希望其他实验室能尽快赶上。我不想生活在埃隆垄断强大人工智能的时间轴中


Grok4只比O3领先5.1% 不必担心!
但是在这样的高端,5%是相当可观的。例如,从90%到95%意味着一半的错误。


我从来没有想到Grok 4实际上会超越NYT connections。它一直是OpenAI的宝座,看到Grok 4的基础甚至超过了o3-pro,这令人印象深刻。我能想到的只有要给Grok 4 API更多的芯片TTC,所以它在发布或其他方面做得更好,但这不能真正被证明或证伪。


一段时间以来,人们都知道基准测试不一定反映真实的使用能力。它们是显示总体进展的良好指标,但它们具有整个营销维度,通常可以进行游戏或优化。人们实际的真实的使用是我们如何正确地评估一个模型的优点和缺点,以便真实的。这就是人们如何很快发现Llama 4是骗人的,或者Claude 4的表现远远好于其基准测试结果。

每一家公司(也许除了anthropic)都会为基准进行优化。Grok在大多数基准测试中表现最好的事实表明它有更好的能力

虽然现在的AI基准测试(比如各种考试题)和真实使用场景差距很大,导致模型可能只是在“应试”而非真正智能。优化测试分数 ≠ 真正变强,就像你之前说的,疯狂刷题确实能让考试成绩飙升,但这不代表实际能力有质的飞跃。

为什么大家都在“刷分”?

  • 老模型更容易刷分:如果基准测试本身比模型训练数据还老(比如o3训练时还没HLE或ARC-AGI 2这些新考题),那针对性优化就容易得多。
  • 内部信息优势:比如xAI有HLE出题人加入,OpenAI和FrontierMath也被质疑“提前知道考题”。这就像考试前拿到参考答案,分数自然高。

真正的较量还在后面

  • Grok 4 目前主要对标 Claude 4,但Claude 4的基准分数其实被低估了,实际能力更强。
  • 想看清谁是真王者,还得等 GPT-5 / Gemini 3 出来再比!


每次Grok击败其他基准测试时,我都会听到这种说法。当其他模型在基准测试中获胜时...  人们由于对马斯克名声的警惕从而产生了认知偏见。


终于有了一些进展。感觉我们已经停滞了很长一段时间了。


Grok一直是对话式AI的佼佼者


为什么O3-high比O3-medium差?
这可能是“过度思考”--在其他一些基准测试中也注意到了这一点。如果你通读R1的推理轨迹,你可以很容易地看到这是如何发生的。


当AI遇上道德困境:
某些人的态度:“我们必须站在道德高地抵制AI!要劝所有善良的人远离它,别开发也别用!”
……但现实很讽刺:“为啥最厉害的AI,全被‘混蛋’公司掌控啊?!”