DeepSeek V3.1诡异输出"极"字事件:数据污染?


【揭秘DeepSeek V3.1诡异输出"极"字事件:量化背锅还是数据污染?】

近日,全球开发者社区掀起一场关于DeepSeek V3.1模型异常行为的激烈讨论。多位开发者发现,这款被誉为"最强开源代码模型"的AI,会在完全不合逻辑的语境下突然输出代表"极端"含义的字符——无论是英文" extreme"还是简繁中文的"极"字,就像被某种神秘力量操控般频繁出现。

令人细思极恐的是,这种现象并非个例。有开发者在使用top_k=1的贪心解码策略时,原本应该输出"time.Second"的代码片段,模型却固执地生成"time.Se极"这样的诡异结果。更让人不安的是,在Fireworks平台提供的FP8全精度模型上同样复现了该问题,彻底排除了量化失真的可能性。

随着调查深入,开发者们发现这个问题可能早已埋下伏笔。

回溯DeepSeek V3今年3月24日版本的推理日志,"极"字竟然长期潜伏在众多输出选项的二三位位置。更惊人的是,同期发布的Qwen3系列模型也出现相似症状,包括235B和30B参数的代码专用模型都未能幸免。

这不禁让人怀疑两大实验室可能使用了同一批被污染的训练数据。

技术社区涌现出多种解释理论。有观点认为这可能与多token预测(MTP)技术的掩码机制有关,当推理框架不支持MTP时就会暴露异常。也有研究者指出,这或许是中英文多语种代码数据混合训练时产生的语义纠缠现象。而普通用户更直观的感受是——当代码生成到一半突然冒出个"极"字,简直像是收到了来自AI的恐怖彩蛋。

事件在国内知乎平台迅速发酵,相关讨论帖获得70万次浏览。众多技术大V各抒己见,其中将问题简单归咎于模型量化的回答虽然获得高赞,但很快被证实是错误方向。开发者们正在GitHub创建详细的问题追踪报告(issue #849),试图从token嵌入空间和注意力机制层面寻找根本原因。

值得注意的是,智谱AI最新发布的GLM 4.5模型经测试完全不受此问题影响,这为对比研究提供了重要参照。目前DeepSeek官方尚未就此现象作出正式回应,但开源社区已经自发组建研究小组,试图通过逆向工程分析训练数据集的潜在缺陷。

这场看似微小的token异常事件,实则暴露了大模型训练中可能存在的系统性风险。

当我们将数万亿token的异构数据喂给AI时,是否真的能完全掌控其中潜藏的语义幽灵?或许"极"字乱象只是冰山一角,在更深的网络层中还隐藏着更多尚未被发现的诡异模式。

对于追求可靠性的企业级应用而言,这次事件无疑敲响了警钟——在将AI部署到生产环境前,我们需要比以往任何时候都更严格的异常输出检测机制。

EDIT 4: https://www.zhihu.com/question/1942934856603505597 
EDIT 5: https://github.com/deepseek-ai/DeepSeek-V3/issues/849