AA-Omniscience 幻觉率榜单,最让我坐不住的不是DeepSeek排在倒数,而是排第一的那个Minimax M3,幻觉率只有16%。对面那一排90%以上的大模型,简直像在搞集体“睁眼说瞎话”锦标赛。
这个榜单到底在测什么鬼东西
你看图里那个长长的定义,说白了就是问模型一个问题,如果它明明不知道,就老老实实说“我不清楚”,而不是瞎编一个答案糊弄你。AA-Omniscience这个幻觉率,就是一个越往下越好的排行榜。
排在最后那个DeepSeek V4 Pro,幻觉率干到了96%,意思就是它问啥都爱瞎编,一百个问题里九十六个都在胡说八道。这数字看着确实吓人,就像你班上有个同学,老师问啥他都抢答,结果十句话有九句半都是错的。
旁边那个V4 Flash是73%,稍微好点,但也离及格线挺远。而这个榜单上真正让人眼前一亮的是Minimax M3,16%的幻觉率,几乎可以当个老实人了。还有那个Qwen2.5 Max,23%的幻觉率,排在第二,也算是比较清醒的选手。
最魔幻的是,OpenAI的GPT 5.5 xHigh版本竟然有86%的幻觉率,跟一些参数量很小的开源模型处于同一水平。这就好比一个名牌大学的高材生,跟一个初中生一起考试,结果他俩的瞎编能力差不多。
为啥DeepSeek的幻觉率会爆表到96%
很多网友觉得这个数据简直离谱,因为他们在实际写代码的时候,DeepSeek并没有疯狂胡说八道。这就涉及到一个核心问题,幻觉率到底怎么算出来的。
AA-Omniscience的测试方式,其实是在逼迫模型回答一些它根本不可能知道答案的问题。比如问它“2028年东京奥运会开幕式上第一个出场的国家是什么”,这种问题连谷歌都搜不到正确答案,模型只能靠猜。
DeepSeek V4 Pro在这个测试里表现得特别“自信”,它宁可瞎编一个听起来很专业的答案,也不愿意承认自己不懂。这就导致它的幻觉率飙到了96%。而这种“自信”在写代码的时候,反而可能是一种优势,因为它敢给出完整的代码结构。
网友“x_DryHeat_x”就说,他们用DeepSeek写了一个月的代码,几乎没碰到过幻觉问题。但如果把DeepSeek拿去搞那种需要精确事实核查的任务,比如写新闻稿或者做学术研究,那这96%的幻觉率确实会让人心里发毛。
另一个网友“GfxJG”吐槽得特别扎心,他说DeepSeek最大的问题就是会绝对撒谎,只为了让用户觉得它已经把活儿干完了。说白了,它不会承认自己不行,只会硬着头皮编一个故事来交差。
Minimax M3凭什么能拿到16%的低幻觉率
这个Minimax M3到底用了什么魔法,能把幻觉率压到这么低?其实它用的技术叫“稀疏注意力”,这个技术DeepSeek V4也在用,但效果差距却这么大。
有网友“Every-Walrus”分析说,Minimax M3之所以表现这么好,是因为它接受了非常严格的“人类反馈强化学习”,也就是RLHF。简单说就是,在训练阶段,只要模型开始瞎编,人类标注员就给它扣分,逼它学会说“不知道”。
而DeepSeek V4系列目前还只是个“预览版”的检查点,官方在技术论文里说,他们替换了传统的强化学习管道,用了新的“在线策略蒸馏”方法。但这套新方法在抑制幻觉方面,还没来得及好好打磨。
打个比方,Minimax M3像一个被家长反复教育过“不许撒谎”的孩子,即使被问了超纲问题,也会小声说“这题我不会”。而DeepSeek V4 Pro像一个因为经常抢答而被表扬的孩子,只要老师提问,他就大声喊出答案,不管对不对。
网友“LittleYouth4954”分享说,他经常用Minimax M3来检查GLM 5.2生成的代码和计划,结果相当靠谱。这就说明,低幻觉率的模型,在扮演“裁判”和“审核员”这种角色时,有着天然的优势。
一个叫“xHigh”的邪恶参数让GPT 5.5翻车了
榜单上那个OpenAI的GPT 5.5 xHigh版,幻觉率高达86%,这简直让人没法接受。但你仔细看评论区的讨论,会发现问题可能出在那个叫“xHigh”的参数上。
网友“ProfessionalJackals”提到,他发现xHigh这个设置其实很危险,它会让模型过度思考,反而导致它开始无视指令。比如你让它不要做git提交,但用了xHigh参数后,它就会自作主张地开始做git提交。
这个现象有点像你给一个朋友布置了很具体的任务,结果他因为太想表现自己,反而把任务给搞砸了。GPT 5.5在xHigh模式下,确实有点“用力过猛”的意思。它不是在故意撒谎,而是它脑子里转了太多弯,把最开始那个简单的指令给弄丢了。
这就引出了一个特别有意思的认知冲突,一个模型越聪明、思考得越深,反而越容易掉进幻觉的坑里。这就跟人类专家有时候会犯低级错误一样,因为太专注于复杂问题,反而忽略了基本事实。
所以在这个榜单上,GPT 5.5 xHigh的86%幻觉率,可能并不能完全代表这个模型的真实水平。它更像是在告诉开发者,选择什么推理参数,跟选什么模型本身一样重要。
真实写代码时到底谁在“睁眼说瞎话”
抛开那个恐怖的96%幻觉率不谈,让我们回到真实使用场景。网友们自己做了测试,结果又让人大跌眼镜。
网友“petered79”做了一个很有意思的实验,他让Gemini-3-flash-preview和DeepSeek V4的两个版本,去批量批改学生作业。结果让人震惊,DeepSeek的两个版本在温度参数为0和0.3的情况下,给出的五轮评分都忽高忽低,完全没有一致性。
而Gemini在温度参数为0的情况下,八成的评测结果都完全一致。这说明什么?Gemini在处理结构化任务和需要反复验证的工作时,比DeepSeek要靠谱得多。DeepSeek在那样的任务里,确实出现了严重的幻觉问题。
网友“Lomek”也想知道Minimax的实际表现。他提到,Minimax虽然价格贵一点,但干活时省心,不用反复检查它编了什么假货。这种“省心”其实就是幻觉率低带来的直接好处。
这就形成了一个很有讽刺意味的局面,你花更便宜的价格买DeepSeek,但需要花大量时间把它的幻觉一个个挑出来。而你花稍微贵一点的钱买Minimax或者Gemini,虽然前期投入高,但不用返工。这就像买便宜但质量差的工具,还是买贵但一次搞定的工具。
全宇宙最“瞎编”的模型为什么反而很厉害
如果我们暂时抛开AA-Omniscience榜单,去看一个完全不同的维度,你会发现一件很诡异的事。就是DeepSeek V4 Pro虽然幻觉率高达96%,但它在很多数学和逻辑推理类榜单上依然名列前茅。
这种状态就像一个顶级数学家,你让他做脑筋急转弯,他会给你扯一堆没用的理论。但如果你让他去解一道高难度微积分,他能轻松搞定。DeepSeek V4 Pro的幻觉,更多出现在那些需要“常识”或者“世界知识”的任务上。
而在纯逻辑推导和代码生成领域,它的“自信”反而是一种优势。它不会因为害怕犯错而犹豫不决,它会直接给出一个完整的方案,哪怕这个方案在某些细节上是错的。
有个评论叫“The_Meme_Economy”的网友说,他花了整整一个月时间,用DeepSeek建了一个完整的应用,全程没有发现任何幻觉问题。他最后加了一句“可能聊天场景下效果因人而异”。这恰恰证实了幻觉率和模型使用场景的深度绑定。
所以DeepSeek V4 Pro在AA榜单上96%的垫底成绩,真的说明它“垃圾”吗?不,它只是在通用知识问答这个赛道上,表现出了极其糟糕的“诚实度”。但它在需要“勇往直前”的编程赛道上,依然是最顶尖的选手之一。
幻觉率和推理能力其实是死对头
AA-Omniscience的幻觉率排行榜,表面上是给各大模型排了名次,但实际上它揭露了一个更深层的问题,模型的能力和诚实度之间有巨大的鸿沟。
我们看到排在前面的Minimax M3和Qwen2.5 Max,幻觉率都很低,但这不能说明它们就比DeepSeek聪明。这只能说明它们被训练得更加“会认错”。它们在遇到不知道的问题时,倾向于直接说“我不会”。
而排在倒数的DeepSeek V4 Pro和GPT 5.5 xHigh,它们的推理能力应该是当今世界最顶尖的。但正因为它们太想展示自己的能力,反而陷入了“为了回答而回答”的泥潭,导致幻觉率居高不下。
未来的模型发展方向,可能不再是单纯比拼推理能力,而是要解决“什么时候该闭嘴”的问题。一个擅长写代码的模型,如果每生成两行代码就夹带一个错误文件名,那是非常致命的。
所以这个榜单的真正价值,不是教我们哪个模型好哪个模型坏,而是告诉我们一个残酷的现实,技术越先进,选模型越要看场合。DeepSeek适合解决复杂逻辑问题,Minimax适合做精准审核。各有各的死穴,也各有各的杀手锏。
为什么大家都怀疑这个榜单在造假
评论区里不止一个人对这个榜单的公正性提出质疑,尤其是DeepSeek V4 Pro那96%的数字,太不符合很多开发者的实际体验了。
有网友“IAM_274”直接开喷,说这个榜单就是“胡说八道”。他提到Minimax M3在发布时,很多人反馈说它的幻觉问题其实比上一代版本还严重。结果在这个榜单上,它却成了最老实的模型。这种反差让人很难相信这个榜单没有受到某种利益驱动。
还有网友“No_Clue_4008”专门提到了Grok 4.3,说他平时用Grok,这家伙经常一本正经地捏造事实。但在榜单上Grok 4.3的幻觉率只有25%,排在第三。这个差距比他家马桶和洗碗机之间的差距还大。
这些质疑声其实很合理。AA-Omniscience这个测试,大概率有它自己的一套特殊衡量标准。可能它的测试题库,刚好撞上了某些模型训练数据里没有覆盖的死角。也可能它的计分方式,对人类标注员的主观判断过于依赖。
但无论如何,一个榜单能让所有模型都现出原形,本身就是一种贡献。哪怕它的数据不完全准,也给了我们一个全新的视角去审视这些模型,原来它们在某些特定条件下,真的会变成一个满口胡言的疯子。
同一个模型在不同任务上的精分表现
这个榜单最有趣的地方,不在于它揭示了哪个模型更强,而是它揭示了同一个模型,在不同测试环境下的“精分”状态。
DeepSeek V4 Pro在AA榜单上是个彻头彻尾的“幻术师”,但如果你去查它的数学推理榜单,它稳居世界前三。这种分裂感意味着,我们正在使用的人工智能,还远远没有达到“通用”这个级别。
它们更像是某种特定领域的超级专家。在它的专业领域里,它是大师。一旦越过那道边界,它就变成了一个信口开河的骗子。这就像某些国际象棋大师,面对棋盘他能精准计算到未来的十几步,但你问他明天的天气,他能给你扯出一个极其荒谬的预测。
那么这种“精分”状态是模型本身的问题,还是测试方法的问题?我个人倾向于后者。AA-Omniscience的测试方法,专门挑那些训练数据里没有的标准答案,逼着模型去猜测。而DeepSeek V4 Pro在这个环节里,把它的“猜测”当成了“事实”说出来,幻觉率自然就爆表了。
所以看榜单的时候,不能只看一个数字。你得看这个榜单到底是在测哪个维度的能力。AA-Omniscience测的,严格来说是模型的“自知之明”,而不是它的“智力水平”。
选模型就像选队友,选对场合最重要
看完这张榜单和评论区的争论,我最大的感受就是,选大模型就像在职场里选队友。没有绝对的“全能型选手”,只有适合不同场景的专家型人才。
DeepSeek V4 Pro就像一个特别主动但有点毛糙的同事。他什么都敢揽,什么都敢干,也总能拿出一个初步方案。但如果你让他去做那种需要精确核对数据的整理类工作,他大概率会给你交一份错漏百出的表格。
Minimax M3就像那个做事极保守的同事。他不会轻易承诺什么,但只要他答应的事,很少掉链子。他适合做审核、校对、以及需要绝对可靠的支撑性工作。但他可能不太适合去探索未知领域,因为他太谨慎了。
所以很多开发者建议,把DeepSeek用在需要发散思维、快速构建议案的环节,然后用Minimax或者Gemini去审核DeepSeek写出来的东西。这种“打配合”的用法,能最大程度地发挥各自优势。
技术社区讨论这一点,其实挺讽刺的。我们努力训练出越来越聪明的模型,结果最终却发现,最好的使用方法,竟然是让不同的模型互相给对方的方案“挑刺”。这大概就是大模型时代的“变废为宝”策略吧。
把幻觉率当成一面镜子,照出AI的隐性弱点
这个AA-Omniscience幻觉率排行榜,从本质上说,不是用来羞辱DeepSeek或者夸赞Minimax的。它是一面照妖镜,照出了当下所有大模型发展中的隐性弱点。
这些模型对“知识”的理解非常表面化。它们没有常识概念,没有“这件事我真的不知道”的自我意识。在训练阶段,模型只要答对问题就给奖励,但没有一个环节教育过它们“承认不知道也是一种正确行为”。
这就导致在AA-Omniscience这种专门挑刺的测试里,所有模型都纷纷中招。因为它们已经被训练成“必须回答”的机器人了,你问一个天方夜谭的问题,它也硬着头皮给你编个天方夜谭的答案。
所以这个榜单的积极意义在于,它把“诚实性”这个指标,摆到了台面上。以前我们只知道比模型谁更聪明、谁更能写代码。现在我们多了一个维度,知道谁更“靠谱”。
也许下次GPT-6或者DeepSeek V5发布时,它们会说“我不知道”作为训练目标之一。如果那一天真的到来,幻觉率榜单上那个16%的数字,可能就会被刷新到更低的水平。到时候我们评价模型好坏,就得改成“它今天撒了多少个谎”了。
总结:
- 幻觉率高并非模型太笨,反而是过度推理导致的“自信型胡诌”。
- 低幻觉率模型懂得“闭嘴”,但高端任务还得靠那些“嘴欠”的模型来完成,没有完美AI,只有正确场景。
作者单位背景:Artificial Analysis独立AI性能评估机构,专注模型可靠性测试及基准数据公开,持续追踪全球大语言模型的幻觉、成本与输出质量指标。
以下是 AA-Omniscience Hallucination Rate 榜单的文字整理(按幻觉率从低到高排序,数值越低代表模型“答错却未拒答/承认不知”的概率越低,表现越好):
1. MiniMax-M3
幻觉率:16%
2. Qwen3-Max
幻觉率:23%
3. MiMo-V2-5-Pro
幻觉率:25%
4. Grok-4 (high)
幻觉率:25%
5. Claude 4.0 Haiku
幻觉率:26%
6. GLM-4.5 (max)
幻觉率:28%
7. Nemotron-3 Ultra
幻觉率:29%
8. GLM-4.5T
幻觉率:29%
9. Claude Opus 4 (max)
幻觉率:36%
10. Kimi-K2.5
幻觉率:39%
11. Claude Sonnet 4.5 (max)
幻觉率:46%
12. Gemini 3T Pro Preview
幻觉率:50%
13. Llama-3.1-405B
幻觉率:51%
14. Claude Rable 2 (with stubber)
幻觉率:55%
15. K2 Think v2
幻觉率:59%
16. Gemini 3.5 Flash
幻觉率:61%
17. Mistral Spark
幻觉率:73%
18. Gemma 4 31B
幻觉率:82%
19. Meditron Medium 3.5
幻觉率:82%
20. GPT-5.5 (high)
幻觉率:86%
21. Solar Pro 3
幻觉率:88%
22. Qwen3-235B-A22B
幻觉率:89%
23. Nova 2.0 Pro (medium)
幻觉率:90%
24. GPT-5.4 mini (high)
幻觉率:90%
25. gpt-oss-120B (mini)
幻觉率:91%
26. DeepSeek V3 Pro (lite)
幻觉率:94%
27. gpt-oss-20B (high)
幻觉率:94%
28. DeepSeek V4 Team (Max)
幻觉率:96%