Google发布Gemini 3.1 Pro震撼AI圈:ARC-AGI-2得分77%、幻觉率腰斩

2026年2月20日,Google正式推出Gemini 3.1 Pro,不仅在ARC-AGI-2抽象推理测试中拿下77%的惊人成绩(超越人类平均60%),还将幻觉率从88%大幅降至50%。尽管API尚未开放、部分用户抱怨UI体验差,但其在编码、数学和多模态任务上的表现已引发社区热议,被赞“效率与性能兼具”,也有人质疑是否过度针对基准测试优化。


Google又双叒叕放大招:Gemini 3.1 Pro横空出世

2026年2月19日Google悄悄扔下了一颗AI界的重磅炸弹——Gemini 3.1 Pro正式亮相。别看它名字里只加了个“.1”,听起来像是修修补补的小更新,但实际上这家伙简直就是脱胎换骨。

上一代Gemini 3 Pro才刚满三个月零一天,按互联网公司的尿性,这更新速度简直比外卖小哥送餐还快。

网友们纷纷调侃:“照这个节奏,Gemini 3.2是不是明天就发布了?”、“ARC-AGI-3怕不是下个月就要上线了”。这种疯狂的迭代频率,已经不是简单的技术进步,而是一场赤裸裸的军备竞赛,逼得Anthropic、OpenAI这些对手连喘口气的时间都没有。

更绝的是,Google这次连“正式版”的面子工程都懒得做了,直接以“preview”(预览版)姿态登场,摆明了态度:我们不在乎你是不是觉得稳定,我们只在乎跑得够不够快。

这场发布之所以引发轰动,核心在于它用硬核数据狠狠打了那些“AI进展停滞论”的脸。

就在半年前,还有不少声音嚷嚷着“大模型遇到天花板了”,结果Gemini 3.1 Pro一出手,直接在多个关键基准测试上实现飞跃。尤其是在那个号称“AI智商试金石”的ARC-AGI-2测试中,它拿下了77%的恐怖分数。

这是什么概念?根据ARC Prize官方公布的数据,普通人类测试者的平均分只有60%。也就是说,Gemini 3.1 Pro在解决这类抽象视觉推理谜题时,已经稳稳超过了地球上一半以上的人类。这消息一出,整个r/singularity板块瞬间炸锅,有人惊呼“AGI要来了吗?”,也有人冷静分析“这测试到底靠不靠谱?”,但无论如何,没人能否认,Google这次确实秀了一把让人无法忽视的肌肉。



ARC-AGI-2:人类平均智商线被AI踩在脚下

要说清楚Gemini 3.1 Pro到底有多猛,就必须搞明白ARC-AGI-2是个什么神仙测试。

简单来说,它就像是给AI出的一套超高难度IQ题,而且是那种你光靠死记硬背绝对做不出来的类型。题目通常给你几个彩色方块组成的输入网格,然后让你根据某种隐藏的逻辑规则,生成一个输出网格。这些规则可能涉及旋转、镜像、颜色替换、模式填充等等,而且每次都是全新的组合,根本没法押题。

ARC Prize的创始人François Chollet(也是Keras框架的作者)设计这套题目的初衷,就是想找到一种能真正衡量AI“流体智力”(fluid intelligence)的方法——也就是面对全新问题时,灵活运用已有知识进行推理的能力,而不是仅仅复述训练数据里的内容。

Gemini 3.1 Pro在ARC-AGI-2上拿到77%的分数,这个数字背后的意义远超表面。

首先,它彻底碾压了前辈Gemini 3 Pro的37.5%,实现了翻倍式的增长。
其次,它也把当前市面上最强的几个对手甩在了身后,比如GPT-5.2 High的52%和Opus 4.6的68%。
最关键的是,它超过了人类平均60%的及格线。

Reddit上有位叫u/Neurogence的用户就发出了灵魂拷问:“我感觉自己都考不到77%……难道这些系统已经比普通人聪明了?” 这个问题戳中了所有人的神经。

当然,也有人泼冷水,认为Google可能专门针对这个测试集进行了优化,属于“应试教育”。但立刻就有其他用户反驳:ARC-AGI的测试集分为公开和私有两部分,如果只是刷公开题,私有题的成绩肯定会掉下来,但目前并没有出现这种情况,说明模型是真的掌握了通用的推理能力,而不是在玩文字游戏。



幻觉率腰斩:AI终于学会说“我不知道”了

如果说ARC-AGI-2的高分证明了Gemini 3.1 Pro的“聪明”,那么它在另一个维度上的进步则让它变得“可靠”——幻觉率(Hallucination Rate)被成功砍掉了一半。

根据u/BuildwithVignesh分享的图表,新模型的幻觉率从上一代的88%骤降至50%。别小看这个50%,在AI领域,能把胡说八道的概率控制在一半以下,已经是质的飞跃。

想象一下,以前你问AI一个问题,它有将近九成的概率会自信满满地给你编一个听起来很合理但完全错误的答案;现在,这个概率降到了五成,意味着它有一半的机会会老老实实地承认“这事儿我不太确定”或者干脆保持沉默。对于企业用户来说,这个改进简直是天降甘霖。

正如一位叫u/UnprocessedAutomaton的用户所说:“当AI系统能稳定地达到或超过人类水平时,公司才敢把它用在关键流程里。” 毕竟,谁也不想因为AI瞎编了一个财务数据或者法律条款,而导致公司损失惨重。

社区里对这项改进的反响几乎是一边倒的叫好。

u/Silcay直接点赞:“看到幻觉率大幅下降真是太棒了!在我看来,这是最重要的指标。”
而u/swarmy1则一针见血地指出了问题的核心:“幻觉才是阻碍AI在企业大规模应用的主要障碍。如果AI能清楚地表明自己‘不知道’,那就算它不能回答所有问题,我们也完全可以接受。”

这种从“全知全能”到“诚实可靠”的转变,标志着AI产品思维的重大成熟。Google很可能在模型内部加入了一个类似“如果不确定,请勿作答”的提示词(internal model prompt),强制模型在面对模糊或未知信息时选择保守策略。这种克制,反而让它赢得了更多信任。



编码能力登顶:AA Index称王,但实战体验存疑

除了抽象推理和诚实度,Gemini 3.1 Pro在开发者最关心的领域——编程——也宣称取得了重大突破。

根据官方发布的基准数据,它在AA Index(一个综合性的代码生成与理解评测)上排名第一。这个消息让很多天天和代码打交道的程序员们兴奋不已,毕竟一个能写出高质量、无bug代码的AI助手,简直就是生产力核武器。

然而,理想很丰满,现实却有点骨感。很快,社区里就出现了不同的声音。一位叫u/FateOfMuffins的用户提出了一个尖锐的问题:这些基准测试展示的只是模型“一次性”(one-shot)解决问题的能力,但在真实的开发环境中,我们需要的是能和开发者进行多轮交互、理解上下文、修复错误、重构代码的“智能伙伴”。

另一位重度用户u/uriahlight则用亲身经历吐槽了Gemini CLI(命令行工具)的致命缺陷:“它有个特别糟糕的习惯,就是在编辑文件时,会莫名其妙地删掉大段代码。只要你给它一个稍微复杂点的任务,代码就真的会凭空消失。”

这个问题不仅出现在CLI里,在GitHub Copilot、Cursor甚至Gemini自家的网页UI中都普遍存在。相比之下,Claude Code和Codex就很少犯这种低级错误。

这说明,Gemini 3.1 Pro底层模型的编码能力或许确实很强,但Google在上层应用(scaffolding/tooling)的设计上存在严重问题。模型再聪明,如果交付它的工具像个马大哈,最终用户体验也会大打折扣。

所以,虽然基准分数很漂亮,但很多开发者依然持观望态度,等着看Google能不能先把工具链的坑填平。



性价比之王?价格不变性能飙升,但API缺席成硬伤

在性能狂飙的同时,Google还给用户吃下了一颗定心丸:Gemini 3.1 Pro的定价将与上一代Gemini 3 Pro完全相同。这意味着用户可以用同样的钱,享受到几乎是翻倍的性能提升。

Reddit用户u/huffalump1对此赞不绝口:“比Sonnet 4.6还便宜!如果它真的比Sonnet 4.6强,那这就是稳赚不赔的买卖。” 这种“加量不加价”的策略,在当前竞争白热化的AI市场中极具杀伤力。它不仅能让现有用户感到物超所值,还能吸引大量正在使用竞品服务的开发者和企业转投Google阵营。尤其是在ARC-AGI-2这样高难度的任务上,Gemini 3.1 Pro的成本据说还不到1美元每任务,这种效率与成本的结合,让它在商业应用层面拥有了巨大的想象空间。

不过,天上不会掉馅饼,至少现在还没掉下来。目前最大的硬伤是,Gemini 3.1 Pro的API还没有对外开放。这意味着第三方开发者无法将其集成到自己的应用中,也无法进行独立的、全面的基准测试。所有的性能数据都来自Google官方,这难免让人心里打鼓。

u/danielv123就直接点出了这个问题:“没有API,就没有第三方基准测试。” 这句话道出了社区的普遍焦虑。在一个大家都习惯用LMSYS Chatbot Arena来“打擂台”看模型真实水平的时代,缺乏一个开放的竞技场,任何官方宣称的“第一”都会显得有些苍白。开发者们只能眼巴巴地等着Google开放接口,才能真正用自己的双手去验证,这款被吹上天的新模型,到底是不是真的那么神。



社区狂欢与集体焦虑:我们真的准备好迎接奇点了?

Gemini 3.1 Pro的发布,像一面镜子,照出了整个AI社区的众生相。

一方面是难以抑制的兴奋和赞叹。
u/avilacjf感慨道:“奇点带来的未来,让人感到眩晕。”
u/squired则更加笃定:“过去90天,我才真正调整了自己的预期。代理(agentic)因素改变了一切……接下来的一年将会是真正可怕的。” 这种情绪源于一个清晰的认知:AI的进步不再是线性的,而是指数级的。

三个月前还让人惊叹的成就,三个月后就已经成了历史。这种加速感让身处其中的人既兴奋又惶恐,仿佛站在一列失控的高速列车上,窗外的风景快到看不清,而前方是未知的深渊还是新大陆,谁也说不准。

但另一方面,也弥漫着一股深深的怀疑和疲惫。很多人开始质疑基准测试本身的意义。
u/TubularScrapple就表达了典型的工程师式务实观点:“实验室里的高分,并不代表日常使用中的好体验。Gemini在代码重构、上下文管理、遵循指令这些具体问题上,很可能还是老样子。”
还有人担心这只是又一次“基准刷分”(benchmaxxing)的把戏,模型被过度优化以在特定测试中取胜,却牺牲了通用性。
更有甚者,一些老用户抱怨模型似乎会随着时间“退化”(nerf),虽然这种说法大多缺乏实证,更多是源于“蜜月期”过后的心理落差。

这场狂欢背后,其实是整个行业在高速狂奔中的集体焦虑:我们创造的东西,正以超出我们理解的速度进化,而我们自己,真的准备好了吗?