所有其他 AI 基准测试都通过测试“PhD++”技能来关注超人的能力或专业知识。
ARC-AGI 是唯一采用相反设计选择的基准测试 :通过关注对人类来说相对容易但对 AI 来说却很难或不可能完成的任务,我们重点关注那些不会因“扩大规模”而自发出现的能力差距。
他们做了个实验:让几百个人来试这些题,结果每道题至少有2个人能在试2次以内做对。这也符合我们对AI的规则——AI解题时也只能试2次。
背景补充
第一代ARC-AGI-1是2019年推出的,专门用来挑战深度学习AI的弱点。它最大的特点是:防止AI靠死记硬背做题。这个测试包含一个训练题库和多个考核题库(其中有个保密题库用于2024年ARC Prize比赛)。训练题的作用是让AI学会解题的基本思路,而考核题要求AI必须动脑筋,能灵活应对从来没见过的题目类型。
举个例子:
训练题就像教你认识数学符号"+"、"-",而考核题是让你用这些符号去解方程。光背答案没用,得真正理解才能做新题。
- 能通过ARC-AGI-1的AI,说明具备了最基础的灵活思考能力。
- 而新出的ARC-AGI-2直接把难度拉满——现在AI不仅要会举一反三,还得又快又准。
我们研究了一堆最先进的AI推理系统后,设计了这些新题目。下面展示的例题都符合两个标准:
- 1️⃣ 至少2个人类在2次尝试内能做对
- 2️⃣ 目前所有最牛的AI系统都做不对
网友:
专门挑「人类觉得简单但AI觉得难」的题目来考AI,会不会不公平?就像只让篮球运动员比踢毽子?
答:这个问题超棒!其实科学家们这么做是有原因的:
1️⃣不是为了偏袒人类,而是为了找到AI的「知识漏洞」
——就像数学老师发现你死背公式却不会应用题,就会专门出变形题来锻炼你的真本事。
2️⃣ 人类的「简单」背后藏着关键能力
比如你看一眼就能分辨猫狗(这感觉很容易),但AI可能需要学百万张图片。这种「直觉式能力」恰恰是AI欠缺的,需要被检测。
3️⃣ 反过来也在测试人类
如果某天AI能轻松搞定这些「人类专属简单题」,说明它真的接近人类思维了,就像AlphaGo下围棋超越人类后,反而帮人类发现了新棋路。
补充比喻:这就好比用「小学生口算题」测试计算器没问题,但如果计算器连1+1都算错,说明它根本就不是真正的「智能」
智能的标准是什么?
为何人类用自己的标准来衡量机器智能,这是不是有点傻,低智商人群用“情商”来贬低高智商孤僻者?