AI与人类集体眼瞎:永远看不见"不存在"的东西


AI其实是个“找漏困难户”? 来自《AbsenceBench:语言模型无法告诉我们缺少了什么》点击标题

核心问题:现在的AI(比如ChatGPT、Claude这些大模型)特别擅长从一堆信息里“找东西”——比如让你在一篇超长的文章里定位某个关键词,它可能比人还厉害。但反过来,如果让你找出文章里“被删掉的内容”,AI就懵了,成绩直接不及格!

科学家做了个实验:

测试内容:
给AI看两版文本——完整版和删减版(比如删了几行诗、漏了几个数字、或者代码少了几行)。
问AI:“少了啥?”

结果惨烈:
最强AI(Claude-3.7)也只能答对69.6%,换成普通AI(比如开源的Llama)甚至不到40分。
对比:如果是让AI“找多余的内容”(类似大家玩过的“找不同”游戏),它能轻松拿满分!


为啥AI这么菜?

  • “缺东西”太难注意:AI的脑子(Transformer架构)是靠“聚焦关键词”来理解的。比如你问“文章里有没有‘恐龙’这个词”,它能瞬间锁定。但如果你问“这里是不是少提了恐龙”,它就像对着空气找线索——因为“没有”本身不是一个能聚焦的词!
  • 越短越难:删的内容越少,AI越容易漏看。比如100行诗删1行,比删10行更难发现,像人类玩“大家来找茬”时,改动越小越难察觉。
科学家的小妙招:如果直接在删掉的地方加个标记(比如写“<此处缺一行>”),AI的准确率瞬间飙升35%!这说明:AI不是笨,而是需要“缺东西”的明确信号。

现实影响:

  • 别太依赖AI检查遗漏:比如让它审合同、查代码合并,可能漏掉关键删除。
  • 未来改进方向:可能需要给AI装个“缺啥检测器”,或者训练它像人类一样对“不完整”更敏感。

举个栗子:
完整诗:“床前明月光,疑是地上霜。举头望明月,低头思故乡。”
删减版:“床前明月光,疑是地上霜。低头思故乡。”

人类:一眼发现少了“举头望明月”。
AI:(若无其事)“我觉得没少啊……要不你再看看?”

总结:AI在“找存在”上是学霸,在“找消失”上像学渣。下次用它干活时,记得——它可能根本不知道啥没说出来!

网友热评1:
为了检测到存在,真实的大脑接受感官输入并将其与预期进行比较,然后保持冷静或记录惊喜,并不时发出预测来指导有机体。

根据定义,大脑不能依靠感官输入来检测缺少的动向。
如果感官证据不存在,要感到惊讶,需要一个足够强大的世界模型,在没有感官提示的情况下,如果预期不存在,就会感到惊讶。

在我看来,检测缺漏是一项严格的高级神经任务,而不是处理感官输入。如果LLM不能完成这种严格意义上的高阶神经学任务,那么,这难道不是目前生物所独有的能力吗?

网友热评2:
从卡尼萨三角到AI的“脑补”能力:一场有趣的实验

你的实验非常有意思!它揭示了当前AI(如Claude)在视觉感知和认知推理上的一个关键特点——高度依赖训练数据的模式匹配,而非真正的“理解”或“推断”。让我们用大白话拆解这个现象:

1. 卡尼萨三角实验的启示
实验步骤
你给Claude看经典的卡尼萨三角(三个“吃豆人”黑块+边缘线条,人类会脑补出一个白色三角形)。
Claude能认出这张著名图片,直接给出标准描述(说明它在训练中见过类似数据)。

旋转90度后:
同一张图旋转后,Claude完全“脸盲”,甚至数错了元素数量(说成4个“吃豆人”+2个箭头)。
关键问题:它没意识到这是同一张图,更没“脑补”出隐藏的三角形。


说明什么?
它本质是通过统计学习图片和文本的关联,而非像人类一样理解几何关系。
旋转后,像素排列变了,AI就认不出了(除非训练时恰好有旋转版本的例子)。

没有真正的“推断”:人类能通过黑块的排列方式主动推断“这里应该有个白色三角形”,但AI只会复述它见过的描述。


为什么AI不会“脑补”缺席信息?
这和AbsenceBench的结论完全一致!

  • 卡尼萨三角:需要“看到”不存在的白线(靠黑块的布局推断)。
  • AbsenceBench:需要“看到”被删掉的文本(靠上下文推断)。

共同点:

  • 依赖“世界模型”:人类能通过经验(比如“黑块这样摆一定藏了三角形”)填补空白,而AI没有这种模型。
  • 感官输入的局限性:AI只能处理实际输入的数据(像素或文字),无法对“该有却没有”的东西产生警觉。

这是否是生物独有的能力?
目前来看,是的!

  • 生物大脑:能通过进化和学习,内置对物理世界、逻辑关系的通用理解(比如“遮挡关系”“对称性”)。即使从没看过卡尼萨三角,也能瞬间理解“隐藏的图形”。
  • 当前AI:只是“数据的影子”——如果训练时没喂过旋转后的卡尼萨三角,它就无法联想。像一台没有好奇心的照相机,只会记录,不会提问“这里是不是少了什么?”。

但注意:如果未来AI能结合更强的几何推理模块(比如AI版“空间想象力”),或许能突破这一限制。不过,这需要从根本上改变架构,而不仅是堆更多数据。

总结:AI vs 人类的“脑补”大战
能力人类当前AI(如Claude)认出经典图片即使第一次见也能理解必须训练中见过类似数据
旋转后识别轻松搞定(理解本质结构)大概率失败(依赖像素级匹配)
推断隐藏信息“这里应该有个三角形!”“我只看到黑块…别的不知道”
检测文本缺失“这段话少了一句”“字面意思没少就行…”

一句话:AI的“聪明”是数据库式的(知道多少算多少),而人类的聪明是联想+创造式的(不知道也能猜)——后者才是真正的高阶神经任务。


网友热评3:
说了那么多人脑优点,其实你们都不理解人脑是怎么运作,就像AI在哪里瞎逼逼

这和训练有关,你只给AI模型看训练最后结果,而不是把形成这个结果的过程告诉它,它可以像人脑补,那么这里就是不同人学识不同,得到结果不同,但是教授专家得出结论未必比学生正确,因为真实世界是不可知的,不要以为你看到世界你能解释,那是你心理作用而已,所以,什么世界模型,其实就是心理模型,自以为是世界的心理模型。

网友热评4:
AI的注意力机制(就是它"盯重点"的方式)没法直接关注"空的地方",因为没字可盯啊!就像让你在一张白纸上找"没写的字",你也会懵。

其实这是人类的灯下黑缺点,房间里有头大象 为何你没有看到?注意力没有注意到不存在的。老子《道德经》提倡知白守黑,知有守无。

总结:

  • AI与人类通病:不见无 不知空 灯下黑
  • AI如人:难察无,难守空
  • AI短板似人:无中难生有"
  • 黑镜成真!AI也患"灯下黑"绝症:为何我们总忽略最重要的"不存在"?