从DeepSeek-到Kimi K2：大模型架构设计吐槽大会

聊聊从DeepSeek-V3到Kimi K2，这些酷炫的现代大语言模型（LLM）的“身体构造”到底有啥不一样，为啥它们能变得越来越聪明、越来越能打！

一、DeepSeek-V3：藏着“深海巨兽”和“专家团”的秘密

话说，DeepSeek-V3这货，在2024年底横空出世，但真正让它火遍大江南北的，是它在2025年1月发布的“推理模型”DeepSeek R1。这哥们儿一出来，简直就是武林高手，把一堆前辈都给比下去了。虽然我们今天主要看2025年发布的模型，但DeepSeek-V3作为DeepSeek R1的“骨架”，咱必须得提它。

DeepSeek-V3之所以这么牛，主要靠两大“独门绝技”：

1.1 多头潜在注意力（MLA）：KV缓存的“压缩大师”

（1）背景知识：GQA——MHA的“省钱兄弟”

在聊MLA之前，咱先得说说它的“前辈”——分组查询注意力（GQA）。这GQA啊，就好比是多头注意力（MHA）的“省钱兄弟”。

你们想想，MHA就像个大户人家，每个注意力头都有自己独立的“钥匙”（Key）和“价值”（Value）。这就像每个孩子都有自己的玩具箱，虽然方便，但家里得准备很多玩具箱，占地方也花钱。

GQA呢，就聪明多了！它把好几个注意力头“捆绑”起来，让他们共享一套“钥匙”和“价值”。比如有4个注意力头，GQA就让1、2号头共享一套KV，3、4号头共享另一套。这样一来，需要存的“钥匙”和“价值”就少了，内存占用也小了，模型跑起来也更快了，就像几个孩子共享一个大玩具箱，虽然可能要排队，但总的来说省地方又省钱。

GQA的这招“共享”大法，主要是为了省内存和提升推理效率，而且实验证明，效果跟MHA差不多，没啥太大影响。

（2）MLA的“黑科技”：压缩数据，节省空间

好了，现在主角登场了——多头潜在注意力（MLA）！GQA是靠“共享”来省钱，MLA更绝，它是个“压缩大师”！

MLA不在“钥匙”和“价值”的头数上做文章，而是直接把这些“钥匙”（Key）和“价值”（Value）数据，在存进KV缓存之前，先给它们“瘦身”，压到更小的维度。等用的时候，再把它们“膨胀”回原来的大小。

这就好比你搬家，GQA是减少箱子的数量，而MLA是把箱子里的东西先用真空压缩袋压扁，等到了新家再打开。虽然多了一个“压缩”和“解压”的步骤（也就是多了一次矩阵乘法），但能大大节省KV缓存的内存空间。而且，DeepSeek团队的研究发现，MLA在模型性能上甚至比MHA还要好一点点！这简直就是又省钱又好用，怪不得DeepSeek要用它！

1.2 专家混合（MoE）：不是所有专家都加班！

DeepSeek-V3的另一个大招就是专家混合（MoE）层。这玩意儿可不是DeepSeek发明的，但它在今年真是大火特火，好多大模型都用上了它。

MoE的核心思想是啥呢？在咱大模型的每个“大脑”模块（Transformer块）里，原本只有一个“大老板”（FeedForward模块）负责处理信息。现在MoE来了，它把这个“大老板”换成了一堆“专家”（每个专家也是一个FeedForward模块）。

这就像一个大公司，以前所有活儿都得一个总经理批，现在总经理下面有好多部门经理。这样一来，虽然公司“总员工数”（模型总参数）大大增加了，但关键来了——每次处理一个“任务”（一个Token），咱们只让其中的一小部分“专家”来干活儿！有个“路由器”会根据任务内容，智能地选择最合适的几位专家来处理。

DeepSeek-V3有6710亿个参数，每层有256个“专家”，但每次推理的时候，只有9个专家会加班（1个共享专家+8个路由器选出来的），这就意味着每次只动用了大概370亿个参数！相比那天文数字般的总参数量，这简直就是“四两拨千斤”啊！

（1）共享专家：把“通用知识”单独交给一个老师

DeepSeek-V3的MoE还有一个特别的地方，就是它有个共享专家。这个共享专家，顾名思义，就是它永远都在线，每个Token都会请教它。这就像学校里有个“公共课老师”，教大家基础知识，而其他专家老师就负责各自的专业课。

有这个共享专家有什么好处呢？它能把那些“通用知识”或者“重复规律”给学透了，这样其他那些“专业专家”就能把精力放在学习更细致、更特殊的知识上，整体模型性能也就更好了。

1.3 DeepSeek总结：又大又快，实力担当！

总结一下DeepSeek-V3这哥们儿：它是个参数量高达6710亿的“超级大胖子”，但推理的时候，因为它用了MoE结构，每次只激活一小部分参数（370亿），所以跑起来飞快，效率杠杠的！而且，它用的MLA注意力机制，不仅比GQA更省内存，性能还更好！一句话，DeepSeek-V3就是个又大又快，还特别有实力的“学霸”！

二、OLMo 2：透明的“好学生”，也玩“位置摆放”的学问

接下来咱们看看OLMo 2。这模型系列，来自一个非营利机构。它虽然可能不是那种霸榜的“第一名”，但它最牛的地方在于透明度超高！就像一个特别爱分享学习资料的“好学生”，训练数据、代码、技术报告，全都大大方方地给你看，这对于咱们学习研究大模型来说，简直就是“活教材”！

OLMo 2在架构上，主要玩的是“归一化层”的“位置摆放”和“额外添加”。

2.1 归一化层的位置：从“课前预习”到“课后复习”

咱们大模型里，有个叫“归一化层”的东西，它的作用就像是给神经网络的信号“调平”，防止信号过强或过弱，让训练更稳定。

传统的Transformer模型（就是提出“Attention is all you need”那篇论文），是把归一化层放在注意力模块和FeedForward模块“后面”，这叫Post-Norm，就像“课后复习”。

但后来的GPT和很多大模型，都改成了把归一化层放在这些模块“前面”，这叫Pre-Norm，就像“课前预习”。实验证明，“课前预习”能让训练更稳定，梯度表现更好。

而OLMo 2呢，它又玩出了新花样！它虽然用的也是Post-Norm（“课后复习”），但它把归一化层放在了“残差连接”（也就是跳过层的那条“直通车”线）的“里面”。这就像虽然是课后复习，但复习的范围还是在当天学习内容的圈子里，不是脱离了当天的学习。

为什么要这么干呢？OLMo 2团队说，这能让训练更稳定！虽然具体贡献有多大，因为它和后面的QK-Norm一起搞的，所以还不好说。

2.2 QK-Norm：给“问题”和“答案”再加一层“检查”

除了归一化层的位置，OLMo 2还加了一个“QK-Norm”。这玩意儿说白了，就是又加了一个归一化层，专门用在注意力机制里面，给“问题”（Queries）和“钥匙”（Keys）向量再做一次“检查”（归一化）。这就像在提问和回答之前，先把问题和答案“整理”一遍，保证清晰度。

这个QK-Norm和上面说的“课后复习”归一化一起，都能让模型的训练过程更稳定。

2.3 OLMo 2总结：透明好学生，爱折腾归一化！

总而言之，OLMo 2就是个爱分享、爱折腾归一化层的“好学生”。它把RMSNorm（一种简化版的归一化层）放在了注意力模块和FeedForward模块“后面”，同时在注意力机制里给Query和Key又加了额外的RMSNorm（QK-Norm），这些操作都是为了让训练过程更稳定。虽然它还在用传统的MHA，但整体来看，它给大模型的开发提供了一个很好的“学习模板”。

三、Gemma 3：窗口滑动，小而强大！

Google的Gemma系列模型，一直都是个“隐藏的王者”，实力很强，但感觉没有Llama系列那么“网红”。Gemma的一个特点是词汇量特别大，能更好地支持多语言，而且特别喜欢搞270亿参数这个“甜点”级别，比80亿模型强，又不像700亿模型那么吃资源，Mac Mini都能跑得动！

Gemma 3除了上面说的，还有一个“小巧思”来省钱，那就是——滑动窗口注意力（Sliding Window Attention）！

3.1 滑动窗口注意力：只看“眼前”，也看“大局”

咱们平时理解的自注意力，就是每个字都可以跟文章里所有其他字“眉来眼去”，这叫全局注意力。这虽然全面，但如果文章太长，那“眉来眼去”的次数就太多了，计算量和内存消耗就蹭蹭往上涨。

而滑动窗口注意力呢，就好比是“局部注意力”。它只让每个字看看自己“身边”的字，也就是在一个固定大小的“窗口”里看。比如，当前这个字，它就只关注它前面和后面一定范围内的字。这就像你写作业，只看你正在写的那几行，而不是一眼扫完整个本子。这样一来，KV缓存的内存需求就大大降低了！

Gemma 3还在这上面玩出了新花样：它把“全局注意力”和“局部注意力”的比例调整了，从Gemma 2的1:1改成了5:1，也就是说，每5层滑动窗口注意力之后，才来一层全局注意力。而且，滑动窗口的大小也从4096缩小到了1024。这表明Gemma 3更侧重于高效的局部计算。

最重要的是，Gemma团队发现，用了这招“滑动窗口”之后，模型的性能几乎没啥影响！这简直就是“神来之笔”！

3.2 Gemma 3的归一化层：多重“检查”，安全第一！

Gemma 3在归一化层的位置上，也挺有意思的。它在分组查询注意力（GQA）模块的“前面”和“后面”都加了RMSNorm！这就好比你做重要的检查，既有“进门检查”，又有“出门检查”，双重保险，安全第一！

这跟之前的Transformer、GPT-2、Llama，还有OLMo 2都不太一样。我觉得这挺合理的，多点归一化，总归是好事，反正RMSNorm计算量也不大。

3.3 Gemma 3总结：被低估的“省钱高手”！

Gemma 3在我看来，是个有点被“低估”的“省钱高手”。它用滑动窗口注意力来提高效率，效果还特好。而且它独特的归一化层摆放方式，也让人眼前一亮。未来如果能把滑动窗口和MoE结合起来，那估计就更无敌了！

四、Mistral Small 3.1：虽然没“窗口”，但跑得快！

紧接着Gemma 3，Mistral Small 3.1 24B也来了，而且它在很多跑分上都打败了Gemma 3 27B，而且还跑得更快！

为啥它能跑得更快呢？猜测是它用了自己的定制分词器，还有就是KV缓存和层数更少。

有意思的是，之前的Mistral模型也用过滑动窗口注意力，但这次Mistral Small 3.1好像放弃了。也许是因为虽然滑动窗口能省内存，但不一定能直接加快推理速度，而Mistral Small 3.1更关注的是跑得快！

五、Llama 4：我也要“专家团”！

咱们前面铺垫了那么多MoE，现在终于轮到Llama 4了！它也加入了MoE的“豪华午餐”，而且整体架构跟DeepSeek-V3很像！

不过，Llama 4也有自己的小特色：

1. 注意力机制： Llama 4还是用它的“老相好”——分组查询注意力（GQA），而DeepSeek-V3用的是MLA。
2. MoE专家数量和大小： DeepSeek-V3的专家数量更多（9个活跃专家，每个专家隐藏层维度2048），Llama 4则专家数量更少（2个活跃专家），但每个专家更大（隐藏层维度8192）。
3. MoE层的位置： DeepSeek-V3几乎每个Transformer块都有MoE层（除了前面3个），Llama 4则是每隔一个Transformer块用MoE层，另一个用常规的“稠密”模块。

总的来说，虽然细节有所不同，但Llama 4也用了MoE，这说明MoE在2025年真是越来越火了！

六、Qwen3：密度和稀疏，我全都要！

Qwen团队一直是高质量开源大模型的“供应商”，咱们NeurIPS 2023的LLM效率挑战赛，前几名都是用Qwen2搞出来的！现在Qwen3也来了，而且一下子来了两种“口味”：稠密模型（Dense）和MoE模型（Sparse）！

6.1 Qwen3（稠密）：小巧好用，学习神器！

稠密模型嘛，就是咱们平时说的传统大模型，所有参数都在一个块里。Qwen3最小的0.6B模型，简直是“麻雀虽小，五脏俱全”，性能出奇的好！它跑起来速度快，占内存也小，在咱自己电脑上跑都没问题。而且，因为小，自己在家拿它练手训练，也特别方便！简直是我的“学习神器”，Llama 3 1B都被我“抛弃”了！

跟Llama 3 1B比起来，Qwen3 0.6B更“深”（层数更多），但更“窄”（隐藏层和注意力头更少），所以虽然占内存小，但生成速度会稍微慢一点点。

6.2 Qwen3（MoE）：规模化推理，就靠它！

Qwen3除了稠密模型，还有两个MoE版本。为啥要搞两种呢？

稠密模型：好比一台“多功能一体机”，啥都能干，调优和部署都比较方便。
MoE模型：就好比一台“高性能服务器”，专门为大规模推理而生。在同样的计算预算下，MoE模型能承载更多的“知识”（总参数量大），但推理时只用一部分参数，所以效率高。

Qwen3提供这两种版本，就是为了满足不同用户的需求：想要稳定、简单、好调优的，选稠密；想要高效、大规模服务的，选MoE！

值得一提的是，Qwen3的MoE模型，跟DeepSeek-V3很像，但它放弃了“共享专家”！之前的Qwen模型是有的。为啥放弃了呢？Qwen团队没说。我猜可能是因为他们的专家数量增加了（从2个到8个），“共享专家”就没那么必要了，还能省点计算和内存。

七、SmolLM3：不靠“位置”，也能知道“谁先谁后”！

SmolLM3虽然没前面几个那么火，但它是个非常有趣的“小而美”的模型，30亿参数，性能却出奇地好！而且它也像OLMo一样，把训练细节分享得特别详细，值得点赞！

SmolLM3最有意思的地方在于它用了无位置嵌入（NoPE）！

7.1 无位置嵌入（NoPE）：虽然没“地标”，但知道“方向”！

在咱们大模型里，位置信息很重要，因为自注意力机制不关心词语的顺序。所以，以前的模型会通过“位置嵌入”来告诉模型每个词在哪个位置。比如，GPT早期是加一个额外的层来给每个词加上位置信息，而RoPE则是通过旋转Query和Key向量来编码相对位置。

但NoPE牛就牛在，它完全不加任何位置信息！不加固定位置，不加学习位置，不加相对位置，啥都不加！

那它怎么知道“谁先谁后”呢？它靠的是因果注意力掩码！这个掩码会阻止每个词“看到”它后面的词。所以，一个在位置t的词，它只能看到位置小于等于t的词。这样一来，虽然没有显式的位置信息，但模型还是能感知到“顺序”的，因为它知道哪些词在它前面。

NoPE的论文还发现，不加位置嵌入，模型的长度泛化能力会更好，也就是说，处理长文本的时候，性能下降没那么厉害。不过，这些实验是在小模型上做的，在大模型上效果如何，还不确定。所以SmolLM3可能只在每4层才用一次NoPE，比较谨慎。

八、Kimi K2：黑马降世，媲美“三巨头”！

最后压轴出场的，就是最近AI圈的“黑马”——Kimi K2！这哥们儿一出来，简直是“一鸣惊人”，性能直接飙到跟Google的Gemini、Anthropic的Claude、OpenAI的ChatGPT这些“大厂亲儿子”一个水平了！

Kimi K2的一个亮点是，它用了一个相对比较新的优化器——Muon优化器，而不是大家常用的AdamW。据我所知，这是第一次有这么大的生产级模型用Muon优化器，之前Muon只在160亿参数的模型上用过。而且，Kimi K2的训练损失曲线非常漂亮！

总结与展望：百花齐放，各显神通！

看了这么多大模型，有没有觉得像看了一场“武林大会”？每个模型都有自己的独门绝技，都在努力提升自己的“内功”（效率）和“招式”（性能）！

* DeepSeek-V3和Llama 4都选择了MoE这种“专家团”模式，在大参数量下保证高效推理。
* DeepSeek-V3还用了MLA这个“压缩大师”来节省KV缓存。
* Gemma 3则用了滑动窗口注意力这种“局部聚焦”的方式来省内存，还玩了花样百出的归一化层摆放。
* OLMo 2则像个“好学生”，不仅透明，还在归一化层上做了文章，力求训练稳定。
* Qwen3更是“雨露均沾”，既有传统的稠密模型，又有高效的MoE模型。
* SmolLM3则大胆尝试了NoPE这种“无招胜有招”的方式，挑战传统。
* 而Kimi K2更是个“黑马”，性能直追顶尖模型，还用了“小众”但强大的Muon优化器。

这些大模型的设计思路，都在围绕着几个核心目标：更大、更快、更省、更稳、更智能！

未来，这些“黑科技”还会怎么发展？MoE和滑动窗口注意力会不会合体？无位置嵌入会变得更普遍吗？哪个优化器会成为下一个“明星”？这些都是值得我们期待和思考的问题！

从DeepSeek-到Kimi K2：大模型架构设计吐槽大会

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道