获奖小说竟是AI写的 评委为何看不出来


AI写的小说拿了大奖,评委却浑然不觉

文学奖被AI攻陷:一篇检测报告撕开“信任”遮羞布

英联邦文学奖多个获奖作品被AI检测工具确认为AI生成,主办方拒绝筛查,暴露文学界对AI认知不足,靠信任运行的旧模式已失效。

先说实话:好几个文学奖得主是AI写的

2026年5月13日,一个叫英联邦基金会的著名文学机构宣布了短篇小说奖的地区获奖者。大家很快发现了一个大问题:好几个获奖故事看起来像是AI写的。有个很靠谱的检测工具叫Pangram,一测一个准,但主办方说他们不打算筛查AI。

这事说白了就是评委自己没跟上时代,结果骗子拿了奖。如果你读过大量AI写的文章,再看这些获奖作品,几乎一眼就能认出来。但评委们显然没这个经验,因为很多讨厌AI的人根本拒绝使用AI,连别人用都不愿意听,结果就是对AI的能力和缺点完全判断错误。

所以结论很简单:文学圈靠信任运行的老套路已经过时了。你要么接受AI投稿,要么老老实实筛查。两头都想占着的结果,就是AI写的文章会越来越多,老实人越来越吃亏。

有个检测工具靠谱到经济学家都盖章

市面上AI检测工具一大堆,大部分不靠谱,但Pangram是个例外。2025年芝加哥大学的经济学家研究过这些工具,发现Pangram的误报率只有0.005%或更低,也就是说它几乎不会冤枉人类写的文章。另一个研究也证明,Pangram的准确率跟一屋子人类专家差不多。

别的工具经常犯一个毛病:把2020年之前人类写的文本错判成AI生成。但Pangram几乎从来不犯这个错,因为它的设计思路很聪明:宁可漏掉一个AI,也不错杀一个人类。这个取舍很关键,错怪一个作家比放过一个作弊者更让人难受,毕竟作家的名声很重要。

而且Pangram还有一个好处:你拿去检测的文本不会被用来训练AI模型。这一点很重要,因为有些作家担心自己的作品被拿去喂AI。所以从各个角度看,Pangram都是目前最靠谱的选择。

检测结果把主办方炸懵了

Pangram测出来什么结果呢?它说获奖故事《林中之蛇》是AI写的。大家接着往下查,发现加拿大和欧洲地区的获奖故事《堡垒的阴影》也是AI写的。亚洲地区的《曼海蒂之夜》大部分内容也是AI生成的,虽然不是100%,但比例已经很高了。

更夸张的是,连2025年的一个获奖作品也被测出来大量是AI写的。不过2025年之前的获奖作品都没问题,这也反过来证明Pangram挺准的,因为它没把那些老文章冤枉成AI。这个发现等于在文学圈扔了一颗炸弹,因为这意味着AI作弊不是偶然事件,而是已经持续了至少两年。

英联邦基金会面对这个结果,反应很混乱。他们一会儿去问另一个AI说这故事是不是AI写的,那个AI说“几乎肯定是”,他们又顾左右而言他。一会儿又说筛查AI会伤害弱势群体,因为要支持新作家找到声音。这个逻辑完全反了,正因为要支持新作家,才更应该使劲筛查AI,因为AI作弊会抢走他们出头的机会。

AI写的文章有一个藏不住的毛病

AI写文章有个特明显的毛病,就是爱用比喻,而且比喻得莫名其妙。你听着好像挺美,但细想逻辑根本不通。《林中之蛇》里写“女孩笑得像水槽上方的日出”,水槽和日出有啥关系?《堡垒的阴影》写“她现在把它放在包里,重得像一个护身符”,护身符一般不都是轻的吗?《曼海蒂之夜》写某个东西“像警示钟一样在灰泥墙上摇摆”。

有个叫Nostalgebraist的网友做过很细致的分析,总结出AI喜欢把抽象的东西和具体的东西强行绑在一起。他举例说AI经常写出这样的句子:“收集你的悲伤像口袋里的石头”、“悲伤和金属味道之间的联系”、“它的存在像大腿边安静的心跳”。这些句子单独拿出来好像挺文艺,但放在故事里就跟上下文没关系。

更关键的是,被判定为AI写的这三篇故事,比喻跟后面的内容毫无关系,就像一次性筷子用完就扔。而真正人类写的获奖作品,比喻是跟人物情感和回忆紧密联系的,不是硬塞进来的。所以如果你读过大量AI文章,再看这三篇,几乎一眼就能认出来。

人类写的获奖比喻长什么样

为了对比,咱们看看这次没被判定为AI写的获奖作品长啥样。太平洋地区的获奖故事写剥羊皮:“她得抬起羊头来割脖子下面,那软塌塌晃来晃去的感觉让她想起艾迪刚出生的时候。当时她吓坏了,捧着这个脆弱的小东西,意识到他的命全在她手里。她赶紧赶走这个念头,不让它生根发芽,免得耽误了手里的活儿。”

这里也有比喻,但比喻很合理,而且跟人物的情感和回忆紧密相关,不是硬塞进来的。非洲地区的获奖故事《我和夫人》更好玩。故事里有人劝主角“干脆”离开她老公,主角就琢磨这个“干脆”这个词本身。

她怎么说呢?每当夫人说“干脆”,她就想起在主卧浴室里使劲往玻璃罐里塞棉球的感觉。也像在小区门口看到大薰衣草丛上蝴蝶时的感觉。夫人说“干脆”的口气,跟她给孩子读童话书时一模一样,书里有公主穿粉裙子、森林里快乐小鸟、兔子狐狸停下来跟你打招呼。夫人的“干脆”又轻又天真,后面跟着的话听起来很容易——“干脆离开他”。这个比喻就高级了,它不光是个比喻,还在刻画人物的内心。

评委为啥看不出来:因为他们拒绝用AI

我很多朋友特别讨厌AI,有的理由我同意,比如搞AI的人自己承认想干一件极其危险的事。有的理由我觉得没那么严重,比如费电。但因为讨厌AI,他们拒绝使用AI,甚至连别人用AI都不愿意听。这就会出大问题。

AI变化太快了,而且用的人越来越多。如果你压根不碰它,你对它的能力和缺点就会完全判断错误。你会忽略一个事实:你读到的文章里,AI写的比例越来越高。文学杂志的评委如果也这样,那他们看到AI写的文章根本认不出来。

事情曝光后,英联邦基金会的总干事说:“我们不会筛查AI,在出现足够可靠的检测工具之前,我们靠信任运行。”可问题是Pangram就是这么一个足够可靠的检测工具。机构靠信任运行本来是好事,但在AI时代显然行不通了。你至少可以靠专家人工判断,但那需要这些专家读过海量AI文本。

主办方的回应前后矛盾到让人无语

英联邦基金会的回应简直是混乱的教科书案例。他们一会儿去问Claude这故事是不是AI写的,Claude说“几乎肯定是”,他们又没下文了。一会儿又说筛查AI会伤害弱势群体,因为总干事说“这个奖很重要,要支持服务不足的社区,让新作家找到声音”。

这个逻辑完全反了。正因为要支持那些社区和新作家,你才更应该使劲筛查AI。因为AI作弊会直接抢走他们出头的机会,奖项就那么多,AI拿走几个,真人就少几个。拿这个理由来反对筛查,等于用保护弱势群体的名义去保护作弊者。

更搞笑的是,总干事还说检测工具训练用的文本来自主流文化,而且是盗版的,拿这个来给作弊辩护。我问她,如果铁证如山证明获奖故事是AI写的怎么办?她说“我们会反思,然后审视流程”。这种回应提醒我们,不是所有狗屁不通的文章都是AI写的,人类自己也能写出逻辑混乱的东西。

结论:信任时代已经结束了

我也不比谁好受,但文学杂志靠信任运行的时代已经过去了。你要么接受AI投稿,要么筛查。没法让全天下人都诚实,而且这次好几个获奖者是第一次投稿,他们连可以输掉的老本都没有。当你试图靠信任运行,你实际上是在奖励骗子。

有些文学界的人想两头占着:不想查文章是不是AI写的,又不想别人指出来是AI写的。结果就是AI写的文章会越来越多。如果有人认为AI写的东西确实够拿奖水平,那也行,那以后要么把奖全发给AI,要么就老老实实筛查。不能一边发奖一边假装没看见。

所以文学圈现在面临一个选择:是睁开眼睛面对现实,还是继续把头埋沙子里。Pangram这样的工具已经摆在那儿了,专家的判断能力也可以培养,但前提是你愿意承认问题存在。否则,下一个AI写的获奖作品已经在路上了。