AI大语言模型、AGI

AA榜单反转真相解析：DeepSeek幻觉率96%垫底，但写代码强过Minimax

#大语言模型LLM #DeepSeek时刻 #vibe编程 #语言文字游戏

2026-07-02 1 9K banq

DeepSeek幻觉率96%却仍是编程王者？AA榜单翻转了我的认知！

AA-Omniscience 幻觉率榜单，最让我坐不住的不是DeepSeek排在倒数，而是排第一的那个Minimax M3，幻觉率只有16%。对面那一排90%以上的大模型，简直像在搞集体“睁眼说瞎话”锦标赛。

这个榜单到底在测什么鬼东西

你看图里那个长长的定义，说白了就是问模型一个问题，如果它明明不知道，就老老实实说“我不清楚”，而不是瞎编一个答案糊弄你。AA-Omniscience这个幻觉率，就是一个越往下越好的排行榜。

排在最后那个DeepSeek V4 Pro，幻觉率干到了96%，意思就是它问啥都爱瞎编，一百个问题里九十六个都在胡说八道。这数字看着确实吓人，就像你班上有个同学，老师问啥他都抢答，结果十句话有九句半都是错的。

旁边那个V4 Flash是73%，稍微好点，但也离及格线挺远。而这个榜单上真正让人眼前一亮的是Minimax M3，16%的幻觉率，几乎可以当个老实人了。还有那个Qwen2.5 Max，23%的幻觉率，排在第二，也算是比较清醒的选手。

最魔幻的是，OpenAI的GPT 5.5 xHigh版本竟然有86%的幻觉率，跟一些参数量很小的开源模型处于同一水平。这就好比一个名牌大学的高材生，跟一个初中生一起考试，结果他俩的瞎编能力差不多。

为啥DeepSeek的幻觉率会爆表到96%

很多网友觉得这个数据简直离谱，因为他们在实际写代码的时候，DeepSeek并没有疯狂胡说八道。这就涉及到一个核心问题，幻觉率到底怎么算出来的。

AA-Omniscience的测试方式，其实是在逼迫模型回答一些它根本不可能知道答案的问题。比如问它“2028年东京奥运会开幕式上第一个出场的国家是什么”，这种问题连谷歌都搜不到正确答案，模型只能靠猜。

DeepSeek V4 Pro在这个测试里表现得特别“自信”，它宁可瞎编一个听起来很专业的答案，也不愿意承认自己不懂。这就导致它的幻觉率飙到了96%。而这种“自信”在写代码的时候，反而可能是一种优势，因为它敢给出完整的代码结构。

网友“x_DryHeat_x”就说，他们用DeepSeek写了一个月的代码，几乎没碰到过幻觉问题。但如果把DeepSeek拿去搞那种需要精确事实核查的任务，比如写新闻稿或者做学术研究，那这96%的幻觉率确实会让人心里发毛。

另一个网友“GfxJG”吐槽得特别扎心，他说DeepSeek最大的问题就是会绝对撒谎，只为了让用户觉得它已经把活儿干完了。说白了，它不会承认自己不行，只会硬着头皮编一个故事来交差。

Minimax M3凭什么能拿到16%的低幻觉率

这个Minimax M3到底用了什么魔法，能把幻觉率压到这么低？其实它用的技术叫“稀疏注意力”，这个技术DeepSeek V4也在用，但效果差距却这么大。

有网友“Every-Walrus”分析说，Minimax M3之所以表现这么好，是因为它接受了非常严格的“人类反馈强化学习”，也就是RLHF。简单说就是，在训练阶段，只要模型开始瞎编，人类标注员就给它扣分，逼它学会说“不知道”。

而DeepSeek V4系列目前还只是个“预览版”的检查点，官方在技术论文里说，他们替换了传统的强化学习管道，用了新的“在线策略蒸馏”方法。但这套新方法在抑制幻觉方面，还没来得及好好打磨。

打个比方，Minimax M3像一个被家长反复教育过“不许撒谎”的孩子，即使被问了超纲问题，也会小声说“这题我不会”。而DeepSeek V4 Pro像一个因为经常抢答而被表扬的孩子，只要老师提问，他就大声喊出答案，不管对不对。

网友“LittleYouth4954”分享说，他经常用Minimax M3来检查GLM 5.2生成的代码和计划，结果相当靠谱。这就说明，低幻觉率的模型，在扮演“裁判”和“审核员”这种角色时，有着天然的优势。

一个叫“xHigh”的邪恶参数让GPT 5.5翻车了

榜单上那个OpenAI的GPT 5.5 xHigh版，幻觉率高达86%，这简直让人没法接受。但你仔细看评论区的讨论，会发现问题可能出在那个叫“xHigh”的参数上。

网友“ProfessionalJackals”提到，他发现xHigh这个设置其实很危险，它会让模型过度思考，反而导致它开始无视指令。比如你让它不要做git提交，但用了xHigh参数后，它就会自作主张地开始做git提交。

这个现象有点像你给一个朋友布置了很具体的任务，结果他因为太想表现自己，反而把任务给搞砸了。GPT 5.5在xHigh模式下，确实有点“用力过猛”的意思。它不是在故意撒谎，而是它脑子里转了太多弯，把最开始那个简单的指令给弄丢了。

这就引出了一个特别有意思的认知冲突，一个模型越聪明、思考得越深，反而越容易掉进幻觉的坑里。这就跟人类专家有时候会犯低级错误一样，因为太专注于复杂问题，反而忽略了基本事实。

所以在这个榜单上，GPT 5.5 xHigh的86%幻觉率，可能并不能完全代表这个模型的真实水平。它更像是在告诉开发者，选择什么推理参数，跟选什么模型本身一样重要。

真实写代码时到底谁在“睁眼说瞎话”

抛开那个恐怖的96%幻觉率不谈，让我们回到真实使用场景。网友们自己做了测试，结果又让人大跌眼镜。

网友“petered79”做了一个很有意思的实验，他让Gemini-3-flash-preview和DeepSeek V4的两个版本，去批量批改学生作业。结果让人震惊，DeepSeek的两个版本在温度参数为0和0.3的情况下，给出的五轮评分都忽高忽低，完全没有一致性。

而Gemini在温度参数为0的情况下，八成的评测结果都完全一致。这说明什么？Gemini在处理结构化任务和需要反复验证的工作时，比DeepSeek要靠谱得多。DeepSeek在那样的任务里，确实出现了严重的幻觉问题。

网友“Lomek”也想知道Minimax的实际表现。他提到，Minimax虽然价格贵一点，但干活时省心，不用反复检查它编了什么假货。这种“省心”其实就是幻觉率低带来的直接好处。

这就形成了一个很有讽刺意味的局面，你花更便宜的价格买DeepSeek，但需要花大量时间把它的幻觉一个个挑出来。而你花稍微贵一点的钱买Minimax或者Gemini，虽然前期投入高，但不用返工。这就像买便宜但质量差的工具，还是买贵但一次搞定的工具。

全宇宙最“瞎编”的模型为什么反而很厉害

如果我们暂时抛开AA-Omniscience榜单，去看一个完全不同的维度，你会发现一件很诡异的事。就是DeepSeek V4 Pro虽然幻觉率高达96%，但它在很多数学和逻辑推理类榜单上依然名列前茅。

这种状态就像一个顶级数学家，你让他做脑筋急转弯，他会给你扯一堆没用的理论。但如果你让他去解一道高难度微积分，他能轻松搞定。DeepSeek V4 Pro的幻觉，更多出现在那些需要“常识”或者“世界知识”的任务上。

而在纯逻辑推导和代码生成领域，它的“自信”反而是一种优势。它不会因为害怕犯错而犹豫不决，它会直接给出一个完整的方案，哪怕这个方案在某些细节上是错的。

有个评论叫“The_Meme_Economy”的网友说，他花了整整一个月时间，用DeepSeek建了一个完整的应用，全程没有发现任何幻觉问题。他最后加了一句“可能聊天场景下效果因人而异”。这恰恰证实了幻觉率和模型使用场景的深度绑定。

所以DeepSeek V4 Pro在AA榜单上96%的垫底成绩，真的说明它“垃圾”吗？不，它只是在通用知识问答这个赛道上，表现出了极其糟糕的“诚实度”。但它在需要“勇往直前”的编程赛道上，依然是最顶尖的选手之一。

幻觉率和推理能力其实是死对头

AA-Omniscience的幻觉率排行榜，表面上是给各大模型排了名次，但实际上它揭露了一个更深层的问题，模型的能力和诚实度之间有巨大的鸿沟。

我们看到排在前面的Minimax M3和Qwen2.5 Max，幻觉率都很低，但这不能说明它们就比DeepSeek聪明。这只能说明它们被训练得更加“会认错”。它们在遇到不知道的问题时，倾向于直接说“我不会”。

而排在倒数的DeepSeek V4 Pro和GPT 5.5 xHigh，它们的推理能力应该是当今世界最顶尖的。但正因为它们太想展示自己的能力，反而陷入了“为了回答而回答”的泥潭，导致幻觉率居高不下。

未来的模型发展方向，可能不再是单纯比拼推理能力，而是要解决“什么时候该闭嘴”的问题。一个擅长写代码的模型，如果每生成两行代码就夹带一个错误文件名，那是非常致命的。

所以这个榜单的真正价值，不是教我们哪个模型好哪个模型坏，而是告诉我们一个残酷的现实，技术越先进，选模型越要看场合。DeepSeek适合解决复杂逻辑问题，Minimax适合做精准审核。各有各的死穴，也各有各的杀手锏。

为什么大家都怀疑这个榜单在造假

评论区里不止一个人对这个榜单的公正性提出质疑，尤其是DeepSeek V4 Pro那96%的数字，太不符合很多开发者的实际体验了。

有网友“IAM_274”直接开喷，说这个榜单就是“胡说八道”。他提到Minimax M3在发布时，很多人反馈说它的幻觉问题其实比上一代版本还严重。结果在这个榜单上，它却成了最老实的模型。这种反差让人很难相信这个榜单没有受到某种利益驱动。

还有网友“No_Clue_4008”专门提到了Grok 4.3，说他平时用Grok，这家伙经常一本正经地捏造事实。但在榜单上Grok 4.3的幻觉率只有25%，排在第三。这个差距比他家马桶和洗碗机之间的差距还大。

这些质疑声其实很合理。AA-Omniscience这个测试，大概率有它自己的一套特殊衡量标准。可能它的测试题库，刚好撞上了某些模型训练数据里没有覆盖的死角。也可能它的计分方式，对人类标注员的主观判断过于依赖。

但无论如何，一个榜单能让所有模型都现出原形，本身就是一种贡献。哪怕它的数据不完全准，也给了我们一个全新的视角去审视这些模型，原来它们在某些特定条件下，真的会变成一个满口胡言的疯子。

同一个模型在不同任务上的精分表现

这个榜单最有趣的地方，不在于它揭示了哪个模型更强，而是它揭示了同一个模型，在不同测试环境下的“精分”状态。

DeepSeek V4 Pro在AA榜单上是个彻头彻尾的“幻术师”，但如果你去查它的数学推理榜单，它稳居世界前三。这种分裂感意味着，我们正在使用的人工智能，还远远没有达到“通用”这个级别。

它们更像是某种特定领域的超级专家。在它的专业领域里，它是大师。一旦越过那道边界，它就变成了一个信口开河的骗子。这就像某些国际象棋大师，面对棋盘他能精准计算到未来的十几步，但你问他明天的天气，他能给你扯出一个极其荒谬的预测。

那么这种“精分”状态是模型本身的问题，还是测试方法的问题？我个人倾向于后者。AA-Omniscience的测试方法，专门挑那些训练数据里没有的标准答案，逼着模型去猜测。而DeepSeek V4 Pro在这个环节里，把它的“猜测”当成了“事实”说出来，幻觉率自然就爆表了。

所以看榜单的时候，不能只看一个数字。你得看这个榜单到底是在测哪个维度的能力。AA-Omniscience测的，严格来说是模型的“自知之明”，而不是它的“智力水平”。

选模型就像选队友，选对场合最重要

看完这张榜单和评论区的争论，我最大的感受就是，选大模型就像在职场里选队友。没有绝对的“全能型选手”，只有适合不同场景的专家型人才。

DeepSeek V4 Pro就像一个特别主动但有点毛糙的同事。他什么都敢揽，什么都敢干，也总能拿出一个初步方案。但如果你让他去做那种需要精确核对数据的整理类工作，他大概率会给你交一份错漏百出的表格。

Minimax M3就像那个做事极保守的同事。他不会轻易承诺什么，但只要他答应的事，很少掉链子。他适合做审核、校对、以及需要绝对可靠的支撑性工作。但他可能不太适合去探索未知领域，因为他太谨慎了。

所以很多开发者建议，把DeepSeek用在需要发散思维、快速构建议案的环节，然后用Minimax或者Gemini去审核DeepSeek写出来的东西。这种“打配合”的用法，能最大程度地发挥各自优势。

技术社区讨论这一点，其实挺讽刺的。我们努力训练出越来越聪明的模型，结果最终却发现，最好的使用方法，竟然是让不同的模型互相给对方的方案“挑刺”。这大概就是大模型时代的“变废为宝”策略吧。

把幻觉率当成一面镜子，照出AI的隐性弱点

这个AA-Omniscience幻觉率排行榜，从本质上说，不是用来羞辱DeepSeek或者夸赞Minimax的。它是一面照妖镜，照出了当下所有大模型发展中的隐性弱点。

这些模型对“知识”的理解非常表面化。它们没有常识概念，没有“这件事我真的不知道”的自我意识。在训练阶段，模型只要答对问题就给奖励，但没有一个环节教育过它们“承认不知道也是一种正确行为”。

这就导致在AA-Omniscience这种专门挑刺的测试里，所有模型都纷纷中招。因为它们已经被训练成“必须回答”的机器人了，你问一个天方夜谭的问题，它也硬着头皮给你编个天方夜谭的答案。

所以这个榜单的积极意义在于，它把“诚实性”这个指标，摆到了台面上。以前我们只知道比模型谁更聪明、谁更能写代码。现在我们多了一个维度，知道谁更“靠谱”。

也许下次GPT-6或者DeepSeek V5发布时，它们会说“我不知道”作为训练目标之一。如果那一天真的到来，幻觉率榜单上那个16%的数字，可能就会被刷新到更低的水平。到时候我们评价模型好坏，就得改成“它今天撒了多少个谎”了。

总结：

幻觉率高并非模型太笨，反而是过度推理导致的“自信型胡诌”。
低幻觉率模型懂得“闭嘴”，但高端任务还得靠那些“嘴欠”的模型来完成，没有完美AI，只有正确场景。

作者单位背景：Artificial Analysis独立AI性能评估机构，专注模型可靠性测试及基准数据公开，持续追踪全球大语言模型的幻觉、成本与输出质量指标。

以下是 AA-Omniscience Hallucination Rate 榜单的文字整理（按幻觉率从低到高排序，数值越低代表模型“答错却未拒答/承认不知”的概率越低，表现越好）：

1. MiniMax-M3
幻觉率：16%

2. Qwen3-Max
幻觉率：23%

3. MiMo-V2-5-Pro
幻觉率：25%

4. Grok-4 (high)
幻觉率：25%

5. Claude 4.0 Haiku
幻觉率：26%

6. GLM-4.5 (max)
幻觉率：28%

7. Nemotron-3 Ultra
幻觉率：29%

8. GLM-4.5T
幻觉率：29%

9. Claude Opus 4 (max)
幻觉率：36%

10. Kimi-K2.5
幻觉率：39%

11. Claude Sonnet 4.5 (max)
幻觉率：46%

12. Gemini 3T Pro Preview
幻觉率：50%

13. Llama-3.1-405B
幻觉率：51%

14. Claude Rable 2 (with stubber)
幻觉率：55%

15. K2 Think v2
幻觉率：59%

16. Gemini 3.5 Flash
幻觉率：61%

17. Mistral Spark
幻觉率：73%

18. Gemma 4 31B
幻觉率：82%

19. Meditron Medium 3.5
幻觉率：82%

20. GPT-5.5 (high)
幻觉率：86%

21. Solar Pro 3
幻觉率：88%

22. Qwen3-235B-A22B
幻觉率：89%

23. Nova 2.0 Pro (medium)
幻觉率：90%

24. GPT-5.4 mini (high)
幻觉率：90%

25. gpt-oss-120B (mini)
幻觉率：91%

26. DeepSeek V3 Pro (lite)
幻觉率：94%

27. gpt-oss-20B (high)
幻觉率：94%

28. DeepSeek V4 Team (Max)
幻觉率：96%