我们以为的“抽象推理天花板”,原来只是算法工程师眼里又一块可以无限刷分的肥肉:强化学习+测试时训练+代码生成三连击,把彩色格子谜题玩成高考数学填空。
更离谱的是,整套方案跑下来单题成本不到一毛钱,连学生党都能复现。当 benchmark 沦为营销道具,AGI 叙事还剩多少真材实料?
本文带你拆台:从Keras之父François Chollet 2019年立下的“反深度学习flag”,到OpenAI o3-preview 2024年底的75%暴击,再到Poetiq开源“贫民版”40%准确率的GPT-OSS-120B,一路围观“抽象推理”如何被降维成“搜索+暴力枚举”。读完你就懂:不是AI突然会思考,而是人类把“思考”重新定义成AI能刷分的形状。
先别急着嗨,ARC到底是个啥
2019年,Keras之父François Chollet 在arXiv甩下一篇《On the Measure of Intelligence》,直言“深度学习已死,有事烧纸”。
他拿出一个只有400道训练集、600道测试集的彩色格子小游戏,规则简单到幼儿园都能看懂:给你三张图,找出规律,画第四张。但就这么点像素,把GPT-2时代的大模型集体打成智障——准确率3%,连随机蒙都比它强。
Chollet放话:谁能在不偷看测试集的前提下刷到85%,谁就能摸到AGI门槛。
于是ARC立刻升格为“圣杯”,马斯克转发,LeCun点赞,OpenAI内部把ARC当成招聘笔试,答对一题直接送面试。
四年过去,大家还在30%徘徊,ARC成了“人类最后优越感”的护城河。
2024年12月,护城河被o3-preview一脚踹翻
去年冬天,OpenAI悄悄放出o3-preview,ARC-AGI-1直接干到75.6%,全网瞬间安静如鸡。
Chollet在推特连发二十条“这不科学”,最后憋出一句:“我们进入了测试时适应时代。”翻译成人话:模型不再靠死记硬背,而是在答题现场临时写代码、自己调自己,相当于考官刚念完题,考生已经现场印了一张答题卡。
更骚的是,o3-preview把每道题当成一次mini强化学习,用64路并行+树搜索+代码沙盒,烧掉价值20万美金的GPU,只为多拿两分。
吃瓜群众惊呼:原来“抽象推理”可以靠钱砸出来?
Poetiq出场,直接把“烧钱”打成“白菜”
如果o3-preview是氪金大佬,Poetiq就是贫民窟外挂。
这家只有12人的伦敦初创,把Gemini 3、GPT-5.1和开源的GPT-OSS-120B缝进一个“自审计”架构:模型先出草稿,再让另一个模型当“教导主任”打回重画,循环三到五次,最终答案出炉。整套流程跑在AWS Spot实例上,单题成本0.007美元,折合人民币五分钱,比打印一张A4还便宜。
结果?ARC-AGI-1公开集85.2%,ARC-AGI-2公开集61.4%,直接超过人类平均60%。
消息一出, benchmark 主办方ARC Prize基金会连夜开会,把“semi-private”测试集锁进硬件加密盘,生怕再被刷爆。
彩色格子背后的黑暗秘密:数据污染
别急着鼓掌,Poetiq自己先认怂:只要换到semi-private集,分数立刻跳水30%,原因无他——public集早就被开源社区反复咀嚼,成了各大模型“预训练小甜点”。
你以为模型在推理,其实它在背答案。
更尴尬的是,ARC-AGI-2虽然号称“全新题库”,但Poetiq承认“基础模型可能见过”,因为互联网上的爬虫没人能100%溯源。
Chollet直言:除非你把题库锁进法拉第笼,否则永远挡不住数据污染。
一句话,benchmark 越火,死得越快。
测试时训练TTT:把“考试”变成“现场改基因”
传统AI是“训练完就毕业”,TTT让模型“考到一半进化成新物种”。
Poetiq的代码里有一段短短30行的Python,用JAX现场编译小网络,把当前题目当成微调数据,跑20步梯度下降,准确率立刻+8%。
相当于考生一边写卷子,一边给自己大脑做开颅手术,监考官还挑不出毛病。
Chollet说:“这不是人类理解的推理,但确实有效。”翻译:黑猫白猫,抓到耗子就是好猫,哪怕这只猫是弗兰肯斯坦。
开源炸弹:贫民也能复现“准AGI”
Poetiq把整套代码扔进GitHub,repo名字嚣张至极——“arc-slaughterhouse”。README第一句:“如果你GPU少于24G,别玩。”
但网友很快晒出Colab白嫖版,用QLoRA把120B模型压到16G显存,ARC-AGI-1还能飙到42%。
意味着啥?以前只有OpenAI、DeepMind才配玩的“圣杯”,现在普通研究生在宿舍就能复现。
AGI门槛被一脚踹成断桥,内卷速度堪比拼多多砍一刀。
benchmark 生命周期:从“圣杯”到“营销道具”只需四年
AI史上屡试不爽的剧本:新 benchmark 发布→媒体惊呼“人类堡垒”→实验室悄悄内卷→分数被刷爆→公关稿满天飞→投资人鼓掌→原作者哀嚎。ImageNet、SQuAD、GLUE、SuperGLUE、MMLU,无一幸免。
ARC原本以为自己“题量小+抽象强”能逃过一劫,结果依旧被“搜索+合成数据+强化学习”三连击轰成渣。
Chollet在Zoom里苦笑:“ benchmark 就像抗生素,用量越大,失效越快。”
下一步,ARC-AGI-3:给模型上“实体课”
既然格子游戏已死,Chollet决定把考场搬到三维交互世界。
ARC-AGI-3不再给静态图,而是让AI在Minecraft风格环境里“动手”:自己搬方块、按按钮、闯迷宫,考察“agency”——能否把抽象规则转化成真实行动。
Poetiq已经提前放话:“只要奖金池到1000万美金,我们立刻组20人专班。”
网友吐槽:这是逼AI从“高考状元”升级成“蓝翔技师”。
投资人视角: benchmark 崩了,钱还能往哪投
一级市场最怕“指标失效”。当ARC再也讲不出故事,美元会涌向哪里?答案是“垂直场景+物理世界”。机器人、自动驾驶、蛋白质折叠、可控核聚变,这些赛道自带“重力与铁锈”,刷分难度指数级上升。
某头部基金合伙人私下透露:“谁再拿ARC-AGI说事,直接踢出会议室。”资本永远比舆论先行半步。
打工人视角:AI把“智商”卷成白菜,我该卷啥
别慌, benchmark 崩的是“抽象格子”,不是“人类饭碗”。Poetiq的代码仍需人类写奖励函数、调搜索超参、清洗数据。AI越能刷题,越需要“出题人”。
未来十年,最吃香的是“反AI工程师”——专门设计AI无法靠暴力搜索攻克的任务,比如“给7岁小孩讲睡前故事并让TA 5分钟内睡着”。
懂人性、懂场景、懂商业,才是碳基生物最后的护城河。
尾声:当AI把“聪明”玩成白菜价,人类还剩什么
ARC的崩塌不是悲剧,而是一面镜子:我们曾把“抽象推理”捧成智慧皇冠,结果AI用五分钟告诉我们——皇冠可以3D打印,还包邮。真正的智慧也许不是解格子,而是明知格子会被解,还愿意继续出题。
Chollet说得好:“ benchmark 的价值不在于永远不被征服,而在于被征服后,我们还能往哪走。”所以,别急着哀悼,拿起键盘,写下下一道让AI绝望的谜题。毕竟,宇宙那么大,彩色格子只是像素,人类的脑洞才是无限分辨率。