Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%


笑死!AI在这个考试里反复撞墙,但得了1分后所有人都沉默了

AI在反作弊测试里拿了1分,专家却说这是历史性突破!

Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%,虽数值极低但意义重大。该测试杜绝死记硬背,要求现场适应新规则。此分数证明模型开始展现原始推理迹象,效率与成本关系成为智能衡量关键,标志从记忆向泛化能力的关键第一步。

ARC-AGI-3测试AI得1分为什么是大事

最新Claude Opus 4.8在ARC-AGI 3的测试里,考了超过百分之一的分数。百分之一,也就是1分,听着是不是特像学渣考了倒数第一?

但在这个圈子里,这1分差不多等于一个人类小孩突然学会了骑自行车,虽然还歪歪扭扭,但已经不是在用脚在地上划拉了。

咱们先把大结论撂在这儿:这个考试不是为了看谁背的题多,而是专门找那种从来没见过的逻辑题,逼着AI当场动脑子。所以得这1分,说明这家伙真在琢磨事儿了,而不是死记硬背。

以前的AI考试都是拿着题库练,练完了上去考,跟学生背答案似的。但这个ARC考试,它出的题你保证没见过,每道题都是全新的图案和规则。这就好比让一个只会做川菜的厨子,突然给他一筐没见过的海鲜,让他做一桌海鲜大餐。以前厉害的模型比如GPT-4,上去直接懵了,得零分是家常便饭。现在Claude Opus 4.8能拿到1分多,虽然离及格还差得远,但至少证明它开始闻了闻海鲜,知道先烧个水了。

这个考试的进阶版本叫ARC-AGI-3,它不是让你坐着想,而是让你在一个会变的游戏环境里动手试。就像你进了一个鬼屋,门会自己换地方,规则你也不知道,你必须边试边猜。这种能力叫做“自适应推理”,就是说你得根据眼前的情况,现场学会新本事。以前的模型考的是你记了多少知识,现在考的是你能不能现学现卖。所以这1分不是“我知道答案”的1分,而是“我试试看能不能找到规律”的1分。

咱们平时觉得AI写诗画画挺牛的,但那都是学了几万张图片和几亿行文字之后的结果。而这个ARC考试,它把AI直接扔到一个它从没见过的世界里。比如给你看几个彩色方块组成的图案,让你猜下一个图案是啥。对人类来说,这就像找不同游戏,看一眼就懂。但对AI来说,这等于要求它在一个没有说明书的外星球上,自己琢磨出交通规则。所以哪怕只猜对了一小道题,也说明它开始像个外星移民,而不是一个只会背地球百科全书的机器人了。

这个考试是专门防着AI背答案的

咱们得先弄明白为啥1分就算个新闻。因为设计这个考试的人,一开始就是奔着“让AI没法靠死记硬背”去的。你想啊,现在的AI特别能吃数据,你给它一万道题,它能记住一万个答案。但考试如果想测真本事,就得拿一万零一道它没见过的题。

这个ARC考试的核心就是每道题都是全新的,图案、颜色、形状、规则全都不一样。这就好比每次考试老师都发明一门新语言,你根本没有复习资料。以前的ARC-AGI-1和-2就已经很难了,很多模型上去就是零蛋。到了-3版本,更狠,增加了互动环节,环境还会变,AI得一边动手操作一边学。

这就引出了下一个道理:真正聪明的脑子,不是看它能解多难的题,而是看它能用多小的代价解出来。你可以让AI想一天一夜,花一万块钱的电费,算出那道题。但你和我解同一个题,可能十秒钟看一眼就懂了。这种效率和成本的差距,就是真智能和大力出奇迹的区别。所以这个考试不光看你答没答对,还看你花了多少钱、想了多久。它的排行榜上,横坐标是每道题花的钱,纵坐标是正确率。你要是不计成本,那可能跑到终点,但你要是只带一盒饭钱,就得看你的脑子灵不灵光了。

咱们把这个考试想象成一个要饭大赛。你可以穿着西装打着领带,雇十个参谋,花一万块钱坐着豪华轿车到终点,那当然能找到吃的。但真正的聪明人是穿着破裤衩,拿着一块钱坐个公交车,也用最短时间找到吃的。这才是本事。现在的AI就像是那个穿西装的,有的模型想一道题能转好几百万圈,成本高得吓死人。而排行榜上真正被看好的,是那些花小钱办大事的“省钱小能手”。Claude Opus 4.8得这1分,关键不在于分数低,而在于它花的钱不多,还真的做对了一点事情。

所以解读这个排行榜上的数据,你得看三条线。第一条是“推理系统趋势线”,就是同一个模型,你给它越长思考时间,它成绩会怎么变。一般成绩会越来越平,就像给一个人无限时间,他也不能变成爱因斯坦。第二条是“基础大模型点”,也就是像GPT-4.5这种,不让它多思考,直接秒答。这类模型基本就是靠本能反应,得分通常惨不忍睹。第三条是“Kaggle竞赛系统”,这是民间高手做的,他们预算很紧,每道题只能花很少的钱,但是特别会设计巧妙的办法。这三条线摆在一起,你就能看出谁是烧钱的大款,谁是动脑子的极客。

花钱越多不一定越聪明还得看效率

咱们说回那个1分的大新闻。很多网友一看,百分之一?这不就是瞎猫碰上死耗子吗?但你得看它是在什么约束下得的这1分。这就好比一个人说我要徒手爬上帝国大厦,结果他爬了1米。你可能会笑话他,但你想想,其他人连碰都没碰,或者碰一下就摔下来了。他这1米是实实在在抓在了墙上。在这个ARC-AGI-3的考试里,大部分模型根本就是零分,就像站在楼底下发呆。Claude Opus 4.8能拿超过1%,意味着它至少在好几个任务里,真真切切地展示出了一点点“现场学习”的影子。

不信你去看它的做题回放。那些题目长什么样呢?有点像小时候玩的“华容道”或者“推箱子”,但是规则你永远猜不透。比如你点一下绿方块,它可能会变成红方块,你点两下,可能会多出一个蓝方块。你得自己试,记住规律,然后完成目标。这个Claude Opus 4.8在解题的时候,有时候会重复犯同一个错误,像个记性不好的金鱼,转个身就忘了刚才试过的办法。但有时候,它突然就对了,就好像脑袋里“叮”的一声,灯泡亮了。虽然这个亮灯的概率很低,但确实亮过。这和以前的模型完全不一样,以前的模型是连灯泡都没有,全是死胡同。

网友们对这个1分的评论特别逗,分为两派。一派说:“1%?别逗了,这跟零有什么区别?我上去闭着眼睛点都能蒙对几个。”另一派说:“你根本不懂,这1%不是蒙的,是在极度陌生的规则下,通过推理得到的。这就好比一个原始人第一次看到电视机,他没有跑开,而是试着按了一下开关,屏幕亮了。这就是文明的起点。”其实两派都有道理,但关键在于,这个考试的题目设计得让蒙对的概率极低极低,比中彩票还低。所以这1%几乎是板上钉钉的推理结果,虽然推理得很笨拙,但方向对了。

咱们再用一个比喻来理解效率。假设这个考试是一场在完全陌生的原始森林里找宝藏的游戏。你可以带一个军团,一边走一边砍树开路,呼叫卫星导航,用直升机侦查,最后找到宝藏。这就是高成本方案。你也可以一个人进山,靠看太阳、摸树皮、闻水汽,最后也找到了宝藏。这就是低成本高智商。目前领先的AI大多是前者,但Claude Opus 4.8这1%的得分,是在成本受限的情况下做到的。它就像那个只带了一把小刀和一瓶水的探险者,虽然没找到大宝藏,但他找到了第一个新鲜的野果。这个“找到”的动作本身,比野果的价值大得多。

现场看AI做题笑到肚子疼但又有点佩服

说了这么多理论,咱们不如直接看看AI是怎么“犯傻”的。网上有人贴出了Claude Opus 4.8做某个题目的完整回放,我看了差点笑岔气。那个任务是一个小游戏,屏幕上有个网格,有些格子里有金色圆环。AI需要控制一个小人,走到圆环上把它捡起来。但是每个圆环只能捡一次,而且地图在变。这个AI怎么操作的呢?它第一步,走到第一个圆环,捡起来,漂亮。第二步,它走到第二个圆环,捡起来,还是漂亮。第三步,它忘了自己已经捡过第一个圆环了,又走回去。发现没了,它就愣住了。然后它开始四处乱转,像一只找不到窝的仓鼠。

最逗的是,它会在同一个死胡同里反复尝试十几次。比如左边那堵墙,它推了五次推不动,第六次它还去推。你就想隔着屏幕摇它的肩膀喊:“大哥!那是墙啊!走右边啊!”但这AI的“记忆”好像只有几秒钟,它记不住刚才失败过的路径。所以你看它解题,就像看一个醉汉在找家门钥匙,明明口袋里有,他非要翻垃圾桶。但就在你快要关掉视频的时候,它突然好像被雷劈了一样,准确无误地完成了后面三步,直接通关。那一瞬间你就会觉得,这家伙不是傻,它是间歇性地清醒。

专家解释说,这是因为当前的AI模型缺乏一种“长期工作记忆”的机制。在ARC-AGI-3这种需要多步互动、环境变化的任务里,AI需要把之前看到的、试过的结果牢牢记住,并且写在一个“小本本”上,每一步都翻一翻。但现在的模型,很多时候只盯着当前屏幕,忘了前面五步的教训。这就好比让你做一道数学题,每算一步就让你洗个澡把前面算的冲掉,你肯定崩溃。所以Claude Opus 4.8能得1分,说明它有时能偷偷把小本本的内容带下来,虽然大部分时间还是会把小本本弄丢。

其实人类做这种题就轻松多了。你看到墙推不动,第二次就不会再推了。你看到金色的环被你捡了,你就知道那儿空了。这种能力叫做“情景记忆”,就是你记得自己做过什么。而对AI来说,这居然是件奢侈的事情。所以看到AI在屏幕上像个刚出生的梅花鹿一样跌跌撞撞,你会觉得它又蠢又可爱。但是转念一想,这个蠢家伙居然能在完全不认识的环境里,自己学会一个规则,哪怕只学会了一次,也足以让你收起笑容,感到一丝后背发凉。因为这意味着它的“蠢”是可以通过改进算法治好的,而它的“聪明”一旦爆发,就不可收拾了。

好多人骂这个考试不公平但它恰恰有用

当然,网上也有很多骂这个考试的声音。有人说,这什么破考试啊,运气成分太大。有的题目,第一次探索走对了方向就得分,走错了就完蛋,这不公平。还有人说得更狠,这个ARC-AGI-3的评分标准太复杂,又是平方又是乘以1.15的,故意把分数压得很低,显得AI很笨,其实就是为了炒作。甚至有人挖苦说,这考试名字里带着AGI,好像解决了它就等于造出了通用人工智能,纯属给自己脸上贴金。这些批评有没有道理?有。但咱们得换个角度看。

这个考试本来就不是为了“公平”而设计的,它是为了“探测边界”而设计的。就好比你用显微镜看细菌,你说细菌跑得慢,不公平,它腿短啊。但显微镜的作用就是让你看到那个极其微小的进步。在AI领域,过去几年大家都在比谁在“人类题库”里考的分高,结果分数越来越高,但一问AI常识问题,它连“我的手上有一块蛋糕,我吃了它,蛋糕还在吗”这种问题都会答错。所以François Chollet这个人设计了ARC,专门用来放大AI的弱点。他就是要让AI考零分,这样你才能看到从零分到一分的变化有多么珍贵。

还有人批评说,人类基线用的是第二快的人类,而不是平均人类,这标准太苛刻了。而且你超过人类太多倍也不额外加分,那岂不是打压进步?但你想,这个考试的目的是什么?是追上人类吗?不是,是让AI学会“像人一样举一反三”。所以它不需要AI跑得比人类快十倍,只需要AI能“启动”这个举一反三的开关。只要开关打开了,哪怕只亮了一瞬间,也说明硬件没问题,剩下的就是训练的问题了。这就好比教一只狗说话,它要是能含含糊糊说出一声“妈”,哪怕声音小到几乎听不见,那也是改写生物学的大事。至于它说得好不好听,那是下一步。

那些说“没人关心这个考试”的网友,其实恰恰说反了。真正关心AI底层硬实力的人,比如顶尖实验室的研究员,他们最关心这个考试。因为GPT-5考个SAT高分,大家已经麻木了,那只是更大规模的数据吞噬。但ARC-AGI-3上任何一个非零的分数,都会让实验室里的人跳起来。因为这代表他们的模型开始拥有了“泛化”的能力,也就是用已知的规律去解决从未见过的、不同规律的问题。这就像你教一个孩子数学,他学会了加法。然后你给他一道乘法的题,他从没学过乘法,但他看着加法表,自己猜出了乘法。这种顿悟,正是通向AGI的关键钥匙。

所以最后咱们总结一下。Claude Opus 4.8在ARC-AGI-3上拿到超过1%的分数,它的意义不在于这个数字的大小,而在于这个数字的性质。它像是冰河世纪里第一滴融化的水,虽然小,但预示着春天。它像是人类在火星上发现的第一颗细菌化石,虽然不起眼,但证明了地外生命的存在。这个大模型不再是一个只会背书的复读机,它开始在一个陌生的世界里,笨拙地、时不时地、费劲巴拉地尝试去理解规则。虽然它现在还会反复撞墙,还会忘记自己刚捡过金币,但起码它已经把手伸出去,触摸到了那个未知世界的大门。而门的那一边,可能就是真正的智能。