DeepSeek V3.1诡异输出"极"字事件：数据污染？

【揭秘DeepSeek V3.1诡异输出"极"字事件：量化背锅还是数据污染？】

近日，全球开发者社区掀起一场关于DeepSeek V3.1模型异常行为的激烈讨论。多位开发者发现，这款被誉为"最强开源代码模型"的AI，会在完全不合逻辑的语境下突然输出代表"极端"含义的字符——无论是英文" extreme"还是简繁中文的"极"字，就像被某种神秘力量操控般频繁出现。

令人细思极恐的是，这种现象并非个例。有开发者在使用top_k=1的贪心解码策略时，原本应该输出"time.Second"的代码片段，模型却固执地生成"time.Se极"这样的诡异结果。更让人不安的是，在Fireworks平台提供的FP8全精度模型上同样复现了该问题，彻底排除了量化失真的可能性。

随着调查深入，开发者们发现这个问题可能早已埋下伏笔。

回溯DeepSeek V3今年3月24日版本的推理日志，"极"字竟然长期潜伏在众多输出选项的二三位位置。更惊人的是，同期发布的Qwen3系列模型也出现相似症状，包括235B和30B参数的代码专用模型都未能幸免。

这不禁让人怀疑两大实验室可能使用了同一批被污染的训练数据。

技术社区涌现出多种解释理论。有观点认为这可能与多token预测（MTP）技术的掩码机制有关，当推理框架不支持MTP时就会暴露异常。也有研究者指出，这或许是中英文多语种代码数据混合训练时产生的语义纠缠现象。而普通用户更直观的感受是——当代码生成到一半突然冒出个"极"字，简直像是收到了来自AI的恐怖彩蛋。

事件在国内知乎平台迅速发酵，相关讨论帖获得70万次浏览。众多技术大V各抒己见，其中将问题简单归咎于模型量化的回答虽然获得高赞，但很快被证实是错误方向。开发者们正在GitHub创建详细的问题追踪报告（issue #849），试图从token嵌入空间和注意力机制层面寻找根本原因。

值得注意的是，智谱AI最新发布的GLM 4.5模型经测试完全不受此问题影响，这为对比研究提供了重要参照。目前DeepSeek官方尚未就此现象作出正式回应，但开源社区已经自发组建研究小组，试图通过逆向工程分析训练数据集的潜在缺陷。

这场看似微小的token异常事件，实则暴露了大模型训练中可能存在的系统性风险。

当我们将数万亿token的异构数据喂给AI时，是否真的能完全掌控其中潜藏的语义幽灵？或许"极"字乱象只是冰山一角，在更深的网络层中还隐藏着更多尚未被发现的诡异模式。

对于追求可靠性的企业级应用而言，这次事件无疑敲响了警钟——在将AI部署到生产环境前，我们需要比以往任何时候都更严格的异常输出检测机制。

EDIT 4: https://www.zhihu.com/question/1942934856603505597
EDIT 5: https://github.com/deepseek-ai/DeepSeek-V3/issues/849

DeepSeek V3.1诡异输出"极"字事件：数据污染？

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道