Gemini Deep Think一拳打爆人类IQ测试,85%通关ARC-AGI-2!

2026年2月,谷歌发布Gemini 3 Deep Think,在ARC-AGI-2基准测试中飙升至84.6%,逼近人类顶尖水平,引发Reddit热议其真实能力与实用价值。

谷歌这回真掏出王炸了?Deep Think直接把人类IQ题干到85%!

2026年2月13号凌晨,谷歌扔出一颗核弹——Gemini 3的“深度思考”(Deep Think)模式,在ARC-AGI-2的智力测试里,干到了84.6%的正确率!

这是什么概念?ARC-AGI是一堆抽象图形谜题,比如给你几个彩色方块的变化规律,让你猜下一个该长啥样。

普通人坐下来琢磨个十分钟,能做对一半就算脑子转得快。
可现在,一个AI模型几乎快把这题库给“背”完了——不对,不是背,是真看懂了!

ARC Prize官方说过,只要超过85%,基本等于“解决”了这个基准。
Deep Think离这道红线就差一根头发丝的距离。

ARC-AGI到底是个啥?为啥它比数学竞赛还让AI圈疯魔?

ARC-AGI全名叫“抽象与推理语料库”(Abstraction and Reasoning Corpus),你可以把它想象成AI界的“门萨俱乐部入门考”。

题目不考你背了多少历史事件,也不问你会不会解微积分,而是给你一组视觉谜题:左边三个图,右边空着,你得找出变换规则,画出第四个。比如颜色翻转、形状旋转、数量递增……这些规则对人类来说直觉就能抓到,但对AI却是地狱难度——因为没有固定公式,每道题都是全新的逻辑游戏。

过去几年,所有大模型在这上面都像小学生碰奥数,磕磕绊绊。

可现在,Deep Think直接从之前的45%飙到85%,整整40个百分点的飞跃!

更吓人的是Codeforces编程竞赛评分——3455分,全球人类选手里排前0.008%,差不多世界第八!关键是,它没用任何外部工具,纯靠自己想代码。这已经不是“会编程”,这是在用算法下围棋,每一步都算到你头皮发麻。

网友吵翻天:到底是真神还是刷榜小丑?

消息一出,Reddit的r/singularity板块直接炸锅。

有人激动得拍桌子:“这跳跃太明显了!他们是不是搞定了什么新算法?”
也有人冷笑:“又来?上次Gemini 3 Pro吹上天,结果写代码像喝假酒,错漏百出。”

争议焦点就一个:ARC-AGI-2的成绩能不能代表真实能力?

有个叫“Neurogence”的用户尖锐指出:“所有新模型都在ARC-AGI-2上猛冲,可在HLE(高难度工程任务)或SWE(软件工程基准)上却只涨1%-2%。这不就是专门调教模型去刷榜吗?”

这话戳中了很多人的心病——AI公司为了发布会好看,拼命优化特定测试,结果用户拿到手发现,让它修个HTML标签都能给你整出新bug。

但另一派反驳说:“ARC-AGI考的是‘从零理解任务’的能力,这才是通用智能的基石!MMM U那种知识问答,背得多就行,没意思。”

两边吵得面红耳赤,活像家长群里争论“奥数班到底有没有用”。

贵到离谱?每月250美元,只为体验“人类级思考”

别光顾着惊叹,先看看钱包——Deep Think模式要单独订阅,每月250美元(约1800人民币)!

有用户吐槽:“这价格是怕我们拿它查天气预报吧?”
但立刻有人回怼:“运行一次ARC-AGI任务成本超10美元,人家是真烧钱在推理,不是随便吐个答案糊弄你。”

关键在于,Deep Think不是普通聊天机器人,它是“测试时计算密集型”模型——意思是每次回答问题,它会在后台疯狂尝试各种思路,像人类草稿纸打满演算一样,直到找到最优解。

这种模式慢、贵,但准。

相比之下,日常用的Gemini Flash或Pro就像快餐,便宜快捷但偶尔翻车。所以谷歌的策略很清晰:日常用Flash,关键时刻掏Deep Think。

可问题来了,普通用户谁天天解ARC谜题?开发者又抱怨:“API还要额外付费!250刀月费不算,调用还得另掏钱,谷歌你是开慈善堂还是抢钱铺?”

Gemini的“人设崩塌史”:每次发布都说封神,两周后就被骂废物

老网民早就看透这套剧本了。

有个ID叫“CurveSudden1104”的用户直接开麦:“谷歌模型永远一个套路:发布时吊打一切,两周后人人喊打!”这话扎心但真实。

回想Gemini 1.0刚出,媒体吹成“GPT-4终结者”,结果用户发现它连图片修改都敷衍了事——你说改个色调,它直接返回原图加点噪点,假装“加工”过。
后来Gemini 2.0、3.0 Pro轮番上阵,每次都说“重大突破”,可实际用起来,指令遵循能力忽高忽低,今天能写完美脚本,明天连npm依赖都装不对。

这种“锯齿状智能”让用户崩溃:“我怎么敢把重要项目交给一个今天天才明天智障的家伙?”

Deep Think虽然成绩亮眼,但阴影仍在——毕竟,它还没经过真实世界的毒打。万一又是“实验室战神,工地逃兵”,那85%的分数再高,也不过是沙上城堡。

别光看ARC-AGI!真正的试金石在SWE和HLE

很多硬核开发者根本不care ARC-AGI的分数。

他们甩出一句灵魂拷问:“SWE Bench呢?HLE呢?”

SWE(Software Engineering Benchmark)考的是真实软件开发能力——给你一个GitHub issue,让你修bug、加功能;HLE(High-Level Engineering)更狠,要求解决需要跨领域知识的复杂工程问题。这两个基准才是AI能否替代程序员的照妖镜。

可惜,Deep Think在HLE上只从41%提到48%,进步微弱。

有用户调侃:“ARC-AGI是解谜游戏,SWE是搬砖现场。AI在游戏厅称王,进了工地照样迷路。”

这暴露了一个残酷现实:当前AI擅长“封闭式推理”(规则明确的小世界),但面对“开放式任务”(需求模糊、环境混乱的真实世界)就露怯。

所以,别急着宣布AGI(通用人工智能)到来,先看看它能不能帮我修好上周删错的那个div标签!

ARC-AGI-3已在路上?人类出题速度赶不上AI破关

ARC-AGI的创始人早料到这一天。社区里有人贴出链接:https://arcprize.org/arc-agi/3/ ——ARC-AGI-3已经在筹备!

但网友苦笑:“等你们出完题,AI早把第三版也刷穿了。”

过去一年,从第一个模型突破50%到Deep Think逼近85%,ARC-AGI-2几乎被榨干。

有人提议:“不如搞ARC-AGI-4——让AI实时速通程序生成的新谜题!”这听着像科幻,但或许是唯一出路。因为ARC的核心精神不是“考倒AI”,而是测试“从零学习新规则”的能力。一旦AI学会举一反三,固定题库就失效了。

所以,ARC-AGI-3可能会引入动态环境、多步交互甚至物理模拟,逼AI从“解题机器”进化成“探索者”。

不过,按现在这迭代速度,说不定ARC-AGI-3发布当天,就有模型宣布“已解决”。

谷歌的阳谋:用Deep Think秀肌肉,为Agent时代铺路

抛开争议,Deep Think的真正野心可能不在刷榜。

有内部人士透露:“他们在强化‘智能体’(Agent)能力——让模型不仅能答问题,还能自主规划、调用工具、反思错误。”

你看Deep Think在Codeforces的恐怖表现,本质是把编程当成多步推理游戏:分析问题→设计算法→写代码→验证→优化。这种能力一旦泛化,就能变成自动程序员、科研助手甚至创业CEO。

谷歌的Workspace套件已经集成“Gemini Notes”——开会自动生成纪要、提取待办事项、同步到项目管理工具。这哪是笔记?这是数字员工!Deep Think就是这个生态的“大脑”,贵是因为它在模拟人类专家的工作流。

所以,别只盯着250美元月费心疼,想想未来:你付一份工资,得到一个永不疲倦、知识渊博、还能自我进化的同事——这买卖,企业绝对愿意做。