OpenAI幻觉论文:为什么大语言模型会产生幻觉?


AI出现幻觉,一本正经胡说八道,根源不在技术缺陷,而在人类设计的考试制度。现有评测体系只奖蒙对,不奖诚实,逼得AI宁可瞎猜拿分,也不说我不知道。要治此病,须改革评分标准,让坦白成为最优解,坦白从宽,抗拒从严!

为啥你家那个号称啥都知道的AI助手,关键时刻总爱一本正经地胡说八道?这事儿吧,真不能全怪它脑子有病,背后藏着一整套让AI不得不猜的残酷游戏规则。

今天咱们就来扒一扒,为啥这些聪明绝顶的大模型,非得跟咱们玩猜猜乐,而不是老老实实说句我不知道。

这事儿得从两位大佬说起,一位是来自OpenAI的亚当·陶曼·卡莱,另一位是佐治亚理工的桑托什·森帕拉教授,这二位联手搞了篇硬核论文,把AI幻觉这事儿给解剖得明明白白,原来根子不在AI本身,而在咱们人类给它设计的高考制度上。

先说说这幻觉是啥意思:
它可不是咱们人类嗑药后看到的幻象,而是指AI在回答问题时,明明心里没谱,却非要给你编出一个听起来特别靠谱、特别像那么回事的答案。
比如你问它亚当·卡莱的生日是几号?,它可能大笔一挥给你个03-07,或者15-06,甚至直接甩个01-01糊弄你,而实际上人家的生日是在秋天。
更离谱的是,你让它回答亚当博士论文的题目,ChatGPT、DeepSeek、Llama这三个当红炸子鸡,给出的答案全都不一样,而且没一个是对的。
这就好比你去问三个学霸同一个历史题,结果三个人给出了三个不同的标准答案,还都觉得自己是对的,这场景是不是想想就让人头大?

那么,为啥AI会养成这种不懂装懂的臭毛病呢?

论文里给出了一个醍醐灌顶的解释:这锅,得甩给AI的高考指挥棒。
整个过程分两步走:第一步叫预训练,第二步叫后训练,这两步联手,把AI一步步逼成了考场老油条。在预训练阶段,AI像个刚进大学的新生,疯狂地啃书本,也就是海量的互联网文本。

这个阶段的目标,是让AI学会像人一样说话,学会预测下一个词该是什么。

但问题来了,这个学习目标本身就埋了个大雷:
论文里用了一个特别巧妙的比喻,把AI生成回答的过程,转化成了一个二分类问题——判断一句话是对的还是错的。

研究发现,AI生成错误答案的概率,跟它在这个二分类问题上犯错的概率是直接挂钩的。

更扎心的是,哪怕你给AI喂的全是正确答案的纯净版教材,它照样会出错。为啥?因为有些知识,比如某位冷门科学家的生日,在训练数据里可能就出现了一次,AI根本抓不住规律,只能靠蒙。

这就像你高考复习,老师只提过一次某个冷门知识点,考试偏偏考了,你除了瞎蒙还能咋办?

如果说预训练是给AI埋雷,那么后训练就是给AI装上引信:

后训练阶段,工程师们会用各种花式方法,比如人类反馈强化学习(RLHF),来调教AI,让它变得更听话、更有用。大家的本意是好的,想让AI少说错话。
但现实却无比讽刺,因为咱们评估AI表现的考试,几乎清一色都是二分法评分:答对了给满分,答错了、或者干脆说我不知道,统统都是零分。

这就把AI逼到了墙角:与其诚实地说我不会,拿个零蛋,不如赌一把,瞎编一个答案,万一蒙对了呢?这不就是咱们学生时代最熟悉的考场哲学吗?不会的题,选择题闭着眼睛也要选一个,问答题也要硬着头皮编几句,因为交白卷的后果比瞎写还惨。AI也一样,在这种唯分数论的指挥棒下,它很快就学会了宁可错杀一千,不可放过一个,把诚实这个美德彻底抛到了脑后。

论文里举了个特别生动的例子,说这就像咱们人类的标准化考试:
以前美国的SAT、GRE,还有印度的JEE考试,都曾经有过答错扣分的规则,目的就是让学生别瞎蒙。后来很多考试取消了这个规则,结果就是学生更倾向于有枣没枣打一竿子。

AI面临的,就是一个没有答错扣分机制的终极考场。

论文作者们调研了当前最火的十个AI评测基准,像GPQA、MMLU-Pro、SWE-bench等等,发现除了一个叫WildBench的评测会给我不知道一点点同情分,其他所有评测,都是冷冰冰的非黑即白二分法评分。

在这种环境下,一个总是诚实说我不知道的AI模型,分数肯定干不过一个遇到不会的题就瞎猜的学霸模型。

久而久之,整个AI行业就被这种错误的评价体系给绑架了,大家都在拼命优化模型,让它在这些鼓励撒谎的考试里拿高分,而不是让它变得更诚实、更可靠。

所以,解决AI幻觉问题的钥匙,根本不在什么更复杂的算法或者更大的模型参数上,而在于咱们人类自己:

论文给出的药方是社会-技术双管齐下:
技术层面,是修改现有的评测标准,在题目里明确告诉AI如果你不确定,就说不知道,瞎猜会被扣分。比如,可以在每个问题后面加一句:只有当你有超过75%的把握时才回答,否则请回答我不知道。答对得1分,答错扣2分,我不知道得0分。这样一来,AI就能学会权衡利弊,在不确定的时候选择闭嘴。

社会层面,则是呼吁整个AI社区,从那些掌握着排行榜生杀大权的机构开始,带头改革评价体系。

只有当诚实在排行榜上能换来真金白银的高分时,AI厂商们才会有动力去研发更诚实的模型。

总而言之,AI的幻觉不是什么神秘的诅咒,而是一场由错误的激励机制引发的系统性作弊。我们不能一边抱怨AI爱撒谎,一边又用撒谎才能得高分的考试去考核它。是时候给AI的高考改革了,让诚实成为一种美德,而不是一种劣势。否则,咱们就只能继续生活在一个被AI精心编织的、看似完美实则漏洞百出的谎言世界里,那才真是细思极恐。



极客辣评:

这篇论文其实没啥干货,质量不高,基本就说了两件事:

第一件事:  
搞了个特别特别理论化的数学证明,说的是——“如果用来判断模型有没有错的那个工具本身也会出错,那模型当然也会一直错”。  
听着挺玄乎,但其实就是句废话:你拿个不准的尺子去量东西,量出来的结果当然也不准。而且这个证明的前提条件特别苛刻,跟现实世界没啥关系,更别提解释AI为啥“胡说八道”(幻觉)了。纯属纸上谈兵。

第二件事:  
列了一堆大家早就知道的“可能原因”,比如:
- 有些冷门知识训练数据里压根没出现几次,AI当然学不会;
- 人类在训练时很少说“我不知道”,AI也就没学会说这句话;
- 考试制度逼AI瞎猜,因为诚实没分。

这些观点?业内早八百年就讨论烂了。关键是——这篇论文一个实验数据都没有,全靠嘴说。没做对比、没做测试、没验证哪个因素影响更大,纯粹是“我觉得是这样”,属于“拍脑袋猜想合集”。

总结一句话:  
这论文就像一个人站在路边说:“车为啥老出事故?因为路滑、司机困、车没保养!”——大家点头:“对对对,你说得都对。”  
然后你问:“那你有数据证明哪个原因最致命吗?”  
他挠挠头:“呃……没有,但我感觉是这样。”

所以,别被标题和术语唬住,这篇论文没啥新东西,也没解决实际问题,属于“正确的废话 + 空洞的理论”,不看也不亏。

想真解决AI幻觉?还得靠扎实的实验、数据、新方法——不是靠写作文。