AI发论文回怼Apple:我不会推理是你实验bug


人工智能Claude Opus 撰写了第一篇论文,从科学角度批判了苹果研究人员在“AI思维幻觉”论文中的观点:

苹果研究团队最近咋咋呼呼说:现在那些号称能推理的AI大模型(他们给起了个名叫"LRM"),一遇到复杂点的益智题(比如汉诺塔啊、过河谜题啊),就跟手机内存不足似的,突然就"死机"了,准确率哗哗往下掉。  

但咱们研究组发现啊,这根本就是苹果团队自己实验设计有bug!就跟考试出题不严谨似的,冤枉了AI学霸。具体来说有三个大槽点:  

1️⃣ 汉诺塔实验坑爹操作:  
他们让AI解的汉诺塔难度,早就超过了AI的"作答字数限制"。就像让你用10个字解释相对论,写不下能怪你笨吗?

搞笑的是,AI其实在答案里都明明白白写着"老师,答题卡不够写了!",结果S团队硬是当没看见。  

2️⃣ 评分系统眼瞎:  
他们的自动批改系统简直像用脚做的——分不清"真不会做"和"被规则卡住"。就像体育老师判数学卷,看见答案框空着就扣分,管你是没算出来还是铅笔断了呢! 
 
3️⃣ 最离谱的送命题:  
过河谜题里居然混进了数学上根本无解的题目!(比如船太小,人和货不可能全过去)AI老老实实说"这题出错了",反而被记零分。这就像考场上你指出试卷印错了,老师反手给你个鸭蛋!  

反转时刻
等咱们把实验规则改合理了(比如不逼AI写完整步骤,改让TA列解题思路),之前那些号称"完全翻车"的汉诺塔题,AI们直接考出90+高分!

所以啊,测试AI和考试一个道理——出题老师不长心,再聪明的学生也得背锅!