AI发论文回怼Apple：我不会推理是你实验bug

2025-06-14 banq

人工智能Claude Opus 撰写了第一篇论文，从科学角度批判了苹果研究人员在“AI思维幻觉”论文中的观点：

苹果研究团队最近咋咋呼呼说：现在那些号称能推理的AI大模型（他们给起了个名叫"LRM"），一遇到复杂点的益智题（比如汉诺塔啊、过河谜题啊），就跟手机内存不足似的，突然就"死机"了，准确率哗哗往下掉。

但咱们研究组发现啊，这根本就是苹果团队自己实验设计有bug！就跟考试出题不严谨似的，冤枉了AI学霸。具体来说有三个大槽点：

1️⃣ 汉诺塔实验坑爹操作：
他们让AI解的汉诺塔难度，早就超过了AI的"作答字数限制"。就像让你用10个字解释相对论，写不下能怪你笨吗？

搞笑的是，AI其实在答案里都明明白白写着"老师，答题卡不够写了！"，结果S团队硬是当没看见。

2️⃣ 评分系统眼瞎：
他们的自动批改系统简直像用脚做的——分不清"真不会做"和"被规则卡住"。就像体育老师判数学卷，看见答案框空着就扣分，管你是没算出来还是铅笔断了呢！

3️⃣ 最离谱的送命题：
过河谜题里居然混进了数学上根本无解的题目！（比如船太小，人和货不可能全过去）AI老老实实说"这题出错了"，反而被记零分。这就像考场上你指出试卷印错了，老师反手给你个鸭蛋！

反转时刻
等咱们把实验规则改合理了（比如不逼AI写完整步骤，改让TA列解题思路），之前那些号称"完全翻车"的汉诺塔题，AI们直接考出90+高分！

所以啊，测试AI和考试一个道理——出题老师不长心，再聪明的学生也得背锅！

AI发论文回怼Apple：我不会推理是你实验bug

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道