Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%

2026-06-02 1 13K banq

笑死！AI在这个考试里反复撞墙，但得了1分后所有人都沉默了

AI在反作弊测试里拿了1分，专家却说这是历史性突破！

Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%，虽数值极低但意义重大。该测试杜绝死记硬背，要求现场适应新规则。此分数证明模型开始展现原始推理迹象，效率与成本关系成为智能衡量关键，标志从记忆向泛化能力的关键第一步。

ARC-AGI-3测试AI得1分为什么是大事

最新Claude Opus 4.8在ARC-AGI 3的测试里，考了超过百分之一的分数。百分之一，也就是1分，听着是不是特像学渣考了倒数第一？

但在这个圈子里，这1分差不多等于一个人类小孩突然学会了骑自行车，虽然还歪歪扭扭，但已经不是在用脚在地上划拉了。

咱们先把大结论撂在这儿：这个考试不是为了看谁背的题多，而是专门找那种从来没见过的逻辑题，逼着AI当场动脑子。所以得这1分，说明这家伙真在琢磨事儿了，而不是死记硬背。

以前的AI考试都是拿着题库练，练完了上去考，跟学生背答案似的。但这个ARC考试，它出的题你保证没见过，每道题都是全新的图案和规则。这就好比让一个只会做川菜的厨子，突然给他一筐没见过的海鲜，让他做一桌海鲜大餐。以前厉害的模型比如GPT-4，上去直接懵了，得零分是家常便饭。现在Claude Opus 4.8能拿到1分多，虽然离及格还差得远，但至少证明它开始闻了闻海鲜，知道先烧个水了。

这个考试的进阶版本叫ARC-AGI-3，它不是让你坐着想，而是让你在一个会变的游戏环境里动手试。就像你进了一个鬼屋，门会自己换地方，规则你也不知道，你必须边试边猜。这种能力叫做“自适应推理”，就是说你得根据眼前的情况，现场学会新本事。以前的模型考的是你记了多少知识，现在考的是你能不能现学现卖。所以这1分不是“我知道答案”的1分，而是“我试试看能不能找到规律”的1分。

咱们平时觉得AI写诗画画挺牛的，但那都是学了几万张图片和几亿行文字之后的结果。而这个ARC考试，它把AI直接扔到一个它从没见过的世界里。比如给你看几个彩色方块组成的图案，让你猜下一个图案是啥。对人类来说，这就像找不同游戏，看一眼就懂。但对AI来说，这等于要求它在一个没有说明书的外星球上，自己琢磨出交通规则。所以哪怕只猜对了一小道题，也说明它开始像个外星移民，而不是一个只会背地球百科全书的机器人了。

这个考试是专门防着AI背答案的

咱们得先弄明白为啥1分就算个新闻。因为设计这个考试的人，一开始就是奔着“让AI没法靠死记硬背”去的。你想啊，现在的AI特别能吃数据，你给它一万道题，它能记住一万个答案。但考试如果想测真本事，就得拿一万零一道它没见过的题。

这个ARC考试的核心就是每道题都是全新的，图案、颜色、形状、规则全都不一样。这就好比每次考试老师都发明一门新语言，你根本没有复习资料。以前的ARC-AGI-1和-2就已经很难了，很多模型上去就是零蛋。到了-3版本，更狠，增加了互动环节，环境还会变，AI得一边动手操作一边学。

这就引出了下一个道理：真正聪明的脑子，不是看它能解多难的题，而是看它能用多小的代价解出来。你可以让AI想一天一夜，花一万块钱的电费，算出那道题。但你和我解同一个题，可能十秒钟看一眼就懂了。这种效率和成本的差距，就是真智能和大力出奇迹的区别。所以这个考试不光看你答没答对，还看你花了多少钱、想了多久。它的排行榜上，横坐标是每道题花的钱，纵坐标是正确率。你要是不计成本，那可能跑到终点，但你要是只带一盒饭钱，就得看你的脑子灵不灵光了。

咱们把这个考试想象成一个要饭大赛。你可以穿着西装打着领带，雇十个参谋，花一万块钱坐着豪华轿车到终点，那当然能找到吃的。但真正的聪明人是穿着破裤衩，拿着一块钱坐个公交车，也用最短时间找到吃的。这才是本事。现在的AI就像是那个穿西装的，有的模型想一道题能转好几百万圈，成本高得吓死人。而排行榜上真正被看好的，是那些花小钱办大事的“省钱小能手”。Claude Opus 4.8得这1分，关键不在于分数低，而在于它花的钱不多，还真的做对了一点事情。

所以解读这个排行榜上的数据，你得看三条线。第一条是“推理系统趋势线”，就是同一个模型，你给它越长思考时间，它成绩会怎么变。一般成绩会越来越平，就像给一个人无限时间，他也不能变成爱因斯坦。第二条是“基础大模型点”，也就是像GPT-4.5这种，不让它多思考，直接秒答。这类模型基本就是靠本能反应，得分通常惨不忍睹。第三条是“Kaggle竞赛系统”，这是民间高手做的，他们预算很紧，每道题只能花很少的钱，但是特别会设计巧妙的办法。这三条线摆在一起，你就能看出谁是烧钱的大款，谁是动脑子的极客。

花钱越多不一定越聪明还得看效率

咱们说回那个1分的大新闻。很多网友一看，百分之一？这不就是瞎猫碰上死耗子吗？但你得看它是在什么约束下得的这1分。这就好比一个人说我要徒手爬上帝国大厦，结果他爬了1米。你可能会笑话他，但你想想，其他人连碰都没碰，或者碰一下就摔下来了。他这1米是实实在在抓在了墙上。在这个ARC-AGI-3的考试里，大部分模型根本就是零分，就像站在楼底下发呆。Claude Opus 4.8能拿超过1%，意味着它至少在好几个任务里，真真切切地展示出了一点点“现场学习”的影子。

不信你去看它的做题回放。那些题目长什么样呢？有点像小时候玩的“华容道”或者“推箱子”，但是规则你永远猜不透。比如你点一下绿方块，它可能会变成红方块，你点两下，可能会多出一个蓝方块。你得自己试，记住规律，然后完成目标。这个Claude Opus 4.8在解题的时候，有时候会重复犯同一个错误，像个记性不好的金鱼，转个身就忘了刚才试过的办法。但有时候，它突然就对了，就好像脑袋里“叮”的一声，灯泡亮了。虽然这个亮灯的概率很低，但确实亮过。这和以前的模型完全不一样，以前的模型是连灯泡都没有，全是死胡同。

网友们对这个1分的评论特别逗，分为两派。一派说：“1%？别逗了，这跟零有什么区别？我上去闭着眼睛点都能蒙对几个。”另一派说：“你根本不懂，这1%不是蒙的，是在极度陌生的规则下，通过推理得到的。这就好比一个原始人第一次看到电视机，他没有跑开，而是试着按了一下开关，屏幕亮了。这就是文明的起点。”其实两派都有道理，但关键在于，这个考试的题目设计得让蒙对的概率极低极低，比中彩票还低。所以这1%几乎是板上钉钉的推理结果，虽然推理得很笨拙，但方向对了。

咱们再用一个比喻来理解效率。假设这个考试是一场在完全陌生的原始森林里找宝藏的游戏。你可以带一个军团，一边走一边砍树开路，呼叫卫星导航，用直升机侦查，最后找到宝藏。这就是高成本方案。你也可以一个人进山，靠看太阳、摸树皮、闻水汽，最后也找到了宝藏。这就是低成本高智商。目前领先的AI大多是前者，但Claude Opus 4.8这1%的得分，是在成本受限的情况下做到的。它就像那个只带了一把小刀和一瓶水的探险者，虽然没找到大宝藏，但他找到了第一个新鲜的野果。这个“找到”的动作本身，比野果的价值大得多。

现场看AI做题笑到肚子疼但又有点佩服

说了这么多理论，咱们不如直接看看AI是怎么“犯傻”的。网上有人贴出了Claude Opus 4.8做某个题目的完整回放，我看了差点笑岔气。那个任务是一个小游戏，屏幕上有个网格，有些格子里有金色圆环。AI需要控制一个小人，走到圆环上把它捡起来。但是每个圆环只能捡一次，而且地图在变。这个AI怎么操作的呢？它第一步，走到第一个圆环，捡起来，漂亮。第二步，它走到第二个圆环，捡起来，还是漂亮。第三步，它忘了自己已经捡过第一个圆环了，又走回去。发现没了，它就愣住了。然后它开始四处乱转，像一只找不到窝的仓鼠。

最逗的是，它会在同一个死胡同里反复尝试十几次。比如左边那堵墙，它推了五次推不动，第六次它还去推。你就想隔着屏幕摇它的肩膀喊：“大哥！那是墙啊！走右边啊！”但这AI的“记忆”好像只有几秒钟，它记不住刚才失败过的路径。所以你看它解题，就像看一个醉汉在找家门钥匙，明明口袋里有，他非要翻垃圾桶。但就在你快要关掉视频的时候，它突然好像被雷劈了一样，准确无误地完成了后面三步，直接通关。那一瞬间你就会觉得，这家伙不是傻，它是间歇性地清醒。

专家解释说，这是因为当前的AI模型缺乏一种“长期工作记忆”的机制。在ARC-AGI-3这种需要多步互动、环境变化的任务里，AI需要把之前看到的、试过的结果牢牢记住，并且写在一个“小本本”上，每一步都翻一翻。但现在的模型，很多时候只盯着当前屏幕，忘了前面五步的教训。这就好比让你做一道数学题，每算一步就让你洗个澡把前面算的冲掉，你肯定崩溃。所以Claude Opus 4.8能得1分，说明它有时能偷偷把小本本的内容带下来，虽然大部分时间还是会把小本本弄丢。

其实人类做这种题就轻松多了。你看到墙推不动，第二次就不会再推了。你看到金色的环被你捡了，你就知道那儿空了。这种能力叫做“情景记忆”，就是你记得自己做过什么。而对AI来说，这居然是件奢侈的事情。所以看到AI在屏幕上像个刚出生的梅花鹿一样跌跌撞撞，你会觉得它又蠢又可爱。但是转念一想，这个蠢家伙居然能在完全不认识的环境里，自己学会一个规则，哪怕只学会了一次，也足以让你收起笑容，感到一丝后背发凉。因为这意味着它的“蠢”是可以通过改进算法治好的，而它的“聪明”一旦爆发，就不可收拾了。

好多人骂这个考试不公平但它恰恰有用

当然，网上也有很多骂这个考试的声音。有人说，这什么破考试啊，运气成分太大。有的题目，第一次探索走对了方向就得分，走错了就完蛋，这不公平。还有人说得更狠，这个ARC-AGI-3的评分标准太复杂，又是平方又是乘以1.15的，故意把分数压得很低，显得AI很笨，其实就是为了炒作。甚至有人挖苦说，这考试名字里带着AGI，好像解决了它就等于造出了通用人工智能，纯属给自己脸上贴金。这些批评有没有道理？有。但咱们得换个角度看。

这个考试本来就不是为了“公平”而设计的，它是为了“探测边界”而设计的。就好比你用显微镜看细菌，你说细菌跑得慢，不公平，它腿短啊。但显微镜的作用就是让你看到那个极其微小的进步。在AI领域，过去几年大家都在比谁在“人类题库”里考的分高，结果分数越来越高，但一问AI常识问题，它连“我的手上有一块蛋糕，我吃了它，蛋糕还在吗”这种问题都会答错。所以François Chollet这个人设计了ARC，专门用来放大AI的弱点。他就是要让AI考零分，这样你才能看到从零分到一分的变化有多么珍贵。

还有人批评说，人类基线用的是第二快的人类，而不是平均人类，这标准太苛刻了。而且你超过人类太多倍也不额外加分，那岂不是打压进步？但你想，这个考试的目的是什么？是追上人类吗？不是，是让AI学会“像人一样举一反三”。所以它不需要AI跑得比人类快十倍，只需要AI能“启动”这个举一反三的开关。只要开关打开了，哪怕只亮了一瞬间，也说明硬件没问题，剩下的就是训练的问题了。这就好比教一只狗说话，它要是能含含糊糊说出一声“妈”，哪怕声音小到几乎听不见，那也是改写生物学的大事。至于它说得好不好听，那是下一步。

那些说“没人关心这个考试”的网友，其实恰恰说反了。真正关心AI底层硬实力的人，比如顶尖实验室的研究员，他们最关心这个考试。因为GPT-5考个SAT高分，大家已经麻木了，那只是更大规模的数据吞噬。但ARC-AGI-3上任何一个非零的分数，都会让实验室里的人跳起来。因为这代表他们的模型开始拥有了“泛化”的能力，也就是用已知的规律去解决从未见过的、不同规律的问题。这就像你教一个孩子数学，他学会了加法。然后你给他一道乘法的题，他从没学过乘法，但他看着加法表，自己猜出了乘法。这种顿悟，正是通向AGI的关键钥匙。

所以最后咱们总结一下。Claude Opus 4.8在ARC-AGI-3上拿到超过1%的分数，它的意义不在于这个数字的大小，而在于这个数字的性质。它像是冰河世纪里第一滴融化的水，虽然小，但预示着春天。它像是人类在火星上发现的第一颗细菌化石，虽然不起眼，但证明了地外生命的存在。这个大模型不再是一个只会背书的复读机，它开始在一个陌生的世界里，笨拙地、时不时地、费劲巴拉地尝试去理解规则。虽然它现在还会反复撞墙，还会忘记自己刚捡过金币，但起码它已经把手伸出去，触摸到了那个未知世界的大门。而门的那一边，可能就是真正的智能。