这个测试就像给AI大脑们做"纽约时报联想游戏"大考!原版有436道联想题,现在升级到651道超级加量版。题目规则是给你16个词,要分成4组"心有灵犀"的词(比如"篮球、足球、网球、羽毛球"都算球类运动)。但为了难倒AI,我们使了个坏——往每道题里偷偷塞进最多4个"捣蛋鬼词汇"(比如在一堆体育用词里混进"披萨"这种完全无关的词)。
截止2025年2月4日,最强AI(那个叫o1的)在原版已经能考90.7分快满分了,今年还有o3等更聪明的AI要来挑战。新版考试现在只需要猜对3组词就能过关(第4组会自动补全),但加了"捣蛋鬼词汇"后难度飙升——我们确保每个捣蛋词绝对不属于任何一组!虽然排行榜名次变化不大,但这下足够让o3级别AI也挠头了!
Leaderboard: Extended Version
Rank Model Score % #Puzzles 1 Grok 4 92.4 651 2 o3-pro (medium reasoning) 87.3 651 3 o1-pro (medium reasoning) 82.5 651 4 o3 (high reasoning) 79.5 651 5 o4-mini (high reasoning) 74.7 651 6 o3 (medium reasoning) 74.0 651 7 o1 (medium reasoning) 70.8 651 8 o4-mini (medium reasoning) 68.8 651 9 o3-mini (high reasoning) 61.4 651 10 Gemini 2.5 Pro 58.7 651 11 Qwen 3 235B A22B 55.6 651 12 Gemini 2.5 Pro Exp 03-25 54.1 651 13 o3-mini (medium reasoning) 53.6 651 14 Claude Opus 4 Thinking 16K 52.7 651 15 DeepSeek R1 05/28 49.8 651 16 Gemini 2.5 Pro Preview 05-06 42.5 651 17 Claude Sonnet 4 Thinking 16K 41.4 651 18 Claude Sonnet 4 Thinking 64K 39.6 651 19 DeepSeek R1 38.6 651 20 Qwen 3 30B A3B 38.0 651 21 Qwen 3 32B 37.0 651 22 Claude Opus 4 (no reasoning) 34.8 651 23 GPT-4.5 Preview 34.2 651 24 Claude 3.7 Sonnet Thinking 16K 33.6 651 25 Qwen QwQ-32B 16K 31.4 651 26 Grok 3 Mini Beta (high) 30.9 651 27 o1-mini 26.9 651 28 Grok 3 Mini Beta (low) 26.0 651 29 Gemini 2.5 Flash Preview (24k) 25.8 651 30 Claude Sonnet 4 (no reasoning) 25.7 651 31 Quasar Alpha 25.4 651 32 GPT-4o Mar 2025 25.2 651 33 GPT-4.1 23.6 651 34 Gemini 2.0 Flash Think Exp 01-21 23.1 649 35 GPT-4o Feb 2025 22.7 651 36 Gemini 2.0 Pro Exp 02-05 21.7 651 37 MiniMax-M1 21.4 651 38 Grok 3 Beta (no reasoning) 20.3 651 39 Grok 2 12-12 19.2 651 40 Gemini 1.5 Pro (Sept) 19.2 601 41 Claude 3.7 Sonnet 19.2 651 42 Claude 3 Opus 19.2 651 43 Llama 4 Maverick 19.1 651 44 Gemini 2.0 Flash 18.8 651 45 GPT-4o 2024-11-20 18.7 601 46 Qwen 2.5 Max 18.0 651 47 Llama 4 Scout 17.9 651 48 GPT-4o 2024-08-06 17.8 601 49 Claude 3.5 Sonnet 2024-10-22 17.7 651 50 DeepSeek V3-0324 17.4 651 51 Llama 3.1 405B 16.2 651 52 Baidu Ernie 4.5 300B A47B 15.2 651 53 DeepSeek V3 15.1 651 54 Llama 3.3 70B 15.1 651 55 GPT-4.1 mini 15.1 651 56 MiniMax-Text-01 14.6 651 57 Cohere Command A 13.6 651 58 Mistral Large 2 12.6 651 59 Gemma 2 27B 12.2 651 60 Gemma 3 27B 11.8 651 61 Mistral Small 3.2 11.5 651 62 Mistral Medium 3 11.4 651 63 Mistral Small 3.1 11.4 651 64 Qwen 2.5 72B 11.1 651 65 Claude 3.5 Haiku 10.3 651 66 Microsoft Phi-4 10.2 651 67 Amazon Nova Pro 10.1 651 68 GPT-4o mini 9.9 651 69 Mistral Small 3 8.9 601 70 GPT-4.1 nano 8.6 651 71 GLM4-32B-0414 7.8 651 72 Claude 3 Haiku 2.2 601
|
人类 vs. AI:纽约时报《联想游戏》大比拼
想知道最强大脑AI和人类谁更会玩《纽约时报》的“联想游戏”吗?我们搞了一场公平对决!
人类战队数据:
- 数据来源:2024年12月—2025年2月真实玩家的官方战绩(感谢网友Bryschien1996的统计)。
- 人类玩家平均能解开71%的题目,但表现起伏很大——
- 地狱模式日(比如2025年2月2日):只有39%的人能通关。
- 新手福利日(比如2025年2月26日):98%的玩家轻松碾压!
- 注意:玩这个游戏的都是自愿挑战的“高玩”,普通人可能更菜……
AI战队规则:为了让AI体验人类的痛苦,我们模拟真人玩法——- 逐步试探:AI像人类一样,先猜一组词,系统会反馈“全对”“差一个”或“全错”。
- 容错机制:AI最多能错4次,超过就Game Over。
比赛结果公布!AI vs 人类,谁更胜一筹?
AI战队表现:
- 顶级AI(比如OpenAI家的):轻松碾压普通人类玩家,解题能力稳居第一梯队!
- DeepSeek R1:表现最接近《纽约时报》玩家的平均水平,算是AI里的“普通人水平”。
人类高玩秀操作:不过,真正的人类顶尖玩家可不服输!在同一时期,他们竟然达成了100%通关率,一道题都没错!这说明——
- AI虽然强,但人类天花板更高!
- 普通玩家平均只能解71%的题,但最强大脑们可是能全通的!
(所以结论是:AI整体比普通人强,但最厉害的人类玩家依然无人能敌!)
Grok4出现之前战绩:
- o1(最强AI之一):胜率高达98.9%,离人类顶尖高手(100%通关)只差一点点!
- o1-pro(尚未出战):实力未知,但很可能和人类最强大脑五五开!
关键胜负点:要判断AI是否真的超越人类,不能只看通关率,还得比细节——
- 谁犯错更少? AI和人类在解每道题时,分别试错了几次?
- 谁更快? 是一眼看出答案,还是反复试错才通关?
###极客辣评
希望其他实验室能尽快赶上。我不想生活在埃隆垄断强大人工智能的时间轴中
Grok4只比O3领先5.1% 不必担心!
但是在这样的高端,5%是相当可观的。例如,从90%到95%意味着一半的错误。
我从来没有想到Grok 4实际上会超越NYT connections。它一直是OpenAI的宝座,看到Grok 4的基础甚至超过了o3-pro,这令人印象深刻。我能想到的只有要给Grok 4 API更多的芯片TTC,所以它在发布或其他方面做得更好,但这不能真正被证明或证伪。
一段时间以来,人们都知道基准测试不一定反映真实的使用能力。它们是显示总体进展的良好指标,但它们具有整个营销维度,通常可以进行游戏或优化。人们实际的真实的使用是我们如何正确地评估一个模型的优点和缺点,以便真实的。这就是人们如何很快发现Llama 4是骗人的,或者Claude 4的表现远远好于其基准测试结果。
每一家公司(也许除了anthropic)都会为基准进行优化。Grok在大多数基准测试中表现最好的事实表明它有更好的能力
虽然现在的AI基准测试(比如各种考试题)和真实使用场景差距很大,导致模型可能只是在“应试”而非真正智能。优化测试分数 ≠ 真正变强,就像你之前说的,疯狂刷题确实能让考试成绩飙升,但这不代表实际能力有质的飞跃。
为什么大家都在“刷分”?
- 老模型更容易刷分:如果基准测试本身比模型训练数据还老(比如o3训练时还没HLE或ARC-AGI 2这些新考题),那针对性优化就容易得多。
- 内部信息优势:比如xAI有HLE出题人加入,OpenAI和FrontierMath也被质疑“提前知道考题”。这就像考试前拿到参考答案,分数自然高。
真正的较量还在后面
- Grok 4 目前主要对标 Claude 4,但Claude 4的基准分数其实被低估了,实际能力更强。
- 想看清谁是真王者,还得等 GPT-5 / Gemini 3 出来再比!
每次Grok击败其他基准测试时,我都会听到这种说法。当其他模型在基准测试中获胜时... 人们由于对马斯克名声的警惕从而产生了认知偏见。
终于有了一些进展。感觉我们已经停滞了很长一段时间了。
Grok一直是对话式AI的佼佼者
为什么O3-high比O3-medium差?
这可能是“过度思考”--在其他一些基准测试中也注意到了这一点。如果你通读R1的推理轨迹,你可以很容易地看到这是如何发生的。
当AI遇上道德困境:
某些人的态度:“我们必须站在道德高地抵制AI!要劝所有善良的人远离它,别开发也别用!”
……但现实很讽刺:“为啥最厉害的AI,全被‘混蛋’公司掌控啊?!”