聊聊从DeepSeek-V3到Kimi K2,这些酷炫的现代大语言模型(LLM)的“身体构造”到底有啥不一样,为啥它们能变得越来越聪明、越来越能打!
一、DeepSeek-V3:藏着“深海巨兽”和“专家团”的秘密
话说,DeepSeek-V3这货,在2024年底横空出世,但真正让它火遍大江南北的,是它在2025年1月发布的“推理模型”DeepSeek R1。这哥们儿一出来,简直就是武林高手,把一堆前辈都给比下去了。虽然我们今天主要看2025年发布的模型,但DeepSeek-V3作为DeepSeek R1的“骨架”,咱必须得提它。
DeepSeek-V3之所以这么牛,主要靠两大“独门绝技”:
1.1 多头潜在注意力(MLA):KV缓存的“压缩大师”
(1)背景知识:GQA——MHA的“省钱兄弟”
在聊MLA之前,咱先得说说它的“前辈”——分组查询注意力(GQA)。这GQA啊,就好比是多头注意力(MHA)的“省钱兄弟”。
你们想想,MHA就像个大户人家,每个注意力头都有自己独立的“钥匙”(Key)和“价值”(Value)。这就像每个孩子都有自己的玩具箱,虽然方便,但家里得准备很多玩具箱,占地方也花钱。
GQA呢,就聪明多了!它把好几个注意力头“捆绑”起来,让他们共享一套“钥匙”和“价值”。比如有4个注意力头,GQA就让1、2号头共享一套KV,3、4号头共享另一套。这样一来,需要存的“钥匙”和“价值”就少了,内存占用也小了,模型跑起来也更快了,就像几个孩子共享一个大玩具箱,虽然可能要排队,但总的来说省地方又省钱。
GQA的这招“共享”大法,主要是为了省内存和提升推理效率,而且实验证明,效果跟MHA差不多,没啥太大影响。
(2)MLA的“黑科技”:压缩数据,节省空间
好了,现在主角登场了——多头潜在注意力(MLA)!GQA是靠“共享”来省钱,MLA更绝,它是个“压缩大师”!
MLA不在“钥匙”和“价值”的头数上做文章,而是直接把这些“钥匙”(Key)和“价值”(Value)数据,在存进KV缓存之前,先给它们“瘦身”,压到更小的维度。等用的时候,再把它们“膨胀”回原来的大小。
这就好比你搬家,GQA是减少箱子的数量,而MLA是把箱子里的东西先用真空压缩袋压扁,等到了新家再打开。虽然多了一个“压缩”和“解压”的步骤(也就是多了一次矩阵乘法),但能大大节省KV缓存的内存空间。而且,DeepSeek团队的研究发现,MLA在模型性能上甚至比MHA还要好一点点!这简直就是又省钱又好用,怪不得DeepSeek要用它!
1.2 专家混合(MoE):不是所有专家都加班!
DeepSeek-V3的另一个大招就是专家混合(MoE)层。这玩意儿可不是DeepSeek发明的,但它在今年真是大火特火,好多大模型都用上了它。
MoE的核心思想是啥呢?在咱大模型的每个“大脑”模块(Transformer块)里,原本只有一个“大老板”(FeedForward模块)负责处理信息。现在MoE来了,它把这个“大老板”换成了一堆“专家”(每个专家也是一个FeedForward模块)。
这就像一个大公司,以前所有活儿都得一个总经理批,现在总经理下面有好多部门经理。这样一来,虽然公司“总员工数”(模型总参数)大大增加了,但关键来了——每次处理一个“任务”(一个Token),咱们只让其中的一小部分“专家”来干活儿!有个“路由器”会根据任务内容,智能地选择最合适的几位专家来处理。
DeepSeek-V3有6710亿个参数,每层有256个“专家”,但每次推理的时候,只有9个专家会加班(1个共享专家+8个路由器选出来的),这就意味着每次只动用了大概370亿个参数!相比那天文数字般的总参数量,这简直就是“四两拨千斤”啊!
(1)共享专家:把“通用知识”单独交给一个老师
DeepSeek-V3的MoE还有一个特别的地方,就是它有个共享专家。这个共享专家,顾名思义,就是它永远都在线,每个Token都会请教它。这就像学校里有个“公共课老师”,教大家基础知识,而其他专家老师就负责各自的专业课。
有这个共享专家有什么好处呢?它能把那些“通用知识”或者“重复规律”给学透了,这样其他那些“专业专家”就能把精力放在学习更细致、更特殊的知识上,整体模型性能也就更好了。
1.3 DeepSeek总结:又大又快,实力担当!
总结一下DeepSeek-V3这哥们儿:它是个参数量高达6710亿的“超级大胖子”,但推理的时候,因为它用了MoE结构,每次只激活一小部分参数(370亿),所以跑起来飞快,效率杠杠的!而且,它用的MLA注意力机制,不仅比GQA更省内存,性能还更好!一句话,DeepSeek-V3就是个又大又快,还特别有实力的“学霸”!
二、OLMo 2:透明的“好学生”,也玩“位置摆放”的学问
接下来咱们看看OLMo 2。这模型系列,来自一个非营利机构。它虽然可能不是那种霸榜的“第一名”,但它最牛的地方在于透明度超高!就像一个特别爱分享学习资料的“好学生”,训练数据、代码、技术报告,全都大大方方地给你看,这对于咱们学习研究大模型来说,简直就是“活教材”!
OLMo 2在架构上,主要玩的是“归一化层”的“位置摆放”和“额外添加”。
2.1 归一化层的位置:从“课前预习”到“课后复习”
咱们大模型里,有个叫“归一化层”的东西,它的作用就像是给神经网络的信号“调平”,防止信号过强或过弱,让训练更稳定。
传统的Transformer模型(就是提出“Attention is all you need”那篇论文),是把归一化层放在注意力模块和FeedForward模块“后面”,这叫Post-Norm,就像“课后复习”。
但后来的GPT和很多大模型,都改成了把归一化层放在这些模块“前面”,这叫Pre-Norm,就像“课前预习”。实验证明,“课前预习”能让训练更稳定,梯度表现更好。
而OLMo 2呢,它又玩出了新花样!它虽然用的也是Post-Norm(“课后复习”),但它把归一化层放在了“残差连接”(也就是跳过层的那条“直通车”线)的“里面”。这就像虽然是课后复习,但复习的范围还是在当天学习内容的圈子里,不是脱离了当天的学习。
为什么要这么干呢?OLMo 2团队说,这能让训练更稳定!虽然具体贡献有多大,因为它和后面的QK-Norm一起搞的,所以还不好说。
2.2 QK-Norm:给“问题”和“答案”再加一层“检查”
除了归一化层的位置,OLMo 2还加了一个“QK-Norm”。这玩意儿说白了,就是又加了一个归一化层,专门用在注意力机制里面,给“问题”(Queries)和“钥匙”(Keys)向量再做一次“检查”(归一化)。这就像在提问和回答之前,先把问题和答案“整理”一遍,保证清晰度。
这个QK-Norm和上面说的“课后复习”归一化一起,都能让模型的训练过程更稳定。
2.3 OLMo 2总结:透明好学生,爱折腾归一化!
总而言之,OLMo 2就是个爱分享、爱折腾归一化层的“好学生”。它把RMSNorm(一种简化版的归一化层)放在了注意力模块和FeedForward模块“后面”,同时在注意力机制里给Query和Key又加了额外的RMSNorm(QK-Norm),这些操作都是为了让训练过程更稳定。虽然它还在用传统的MHA,但整体来看,它给大模型的开发提供了一个很好的“学习模板”。
三、Gemma 3:窗口滑动,小而强大!
Google的Gemma系列模型,一直都是个“隐藏的王者”,实力很强,但感觉没有Llama系列那么“网红”。Gemma的一个特点是词汇量特别大,能更好地支持多语言,而且特别喜欢搞270亿参数这个“甜点”级别,比80亿模型强,又不像700亿模型那么吃资源,Mac Mini都能跑得动!
Gemma 3除了上面说的,还有一个“小巧思”来省钱,那就是——滑动窗口注意力(Sliding Window Attention)!
3.1 滑动窗口注意力:只看“眼前”,也看“大局”
咱们平时理解的自注意力,就是每个字都可以跟文章里所有其他字“眉来眼去”,这叫全局注意力。这虽然全面,但如果文章太长,那“眉来眼去”的次数就太多了,计算量和内存消耗就蹭蹭往上涨。
而滑动窗口注意力呢,就好比是“局部注意力”。它只让每个字看看自己“身边”的字,也就是在一个固定大小的“窗口”里看。比如,当前这个字,它就只关注它前面和后面一定范围内的字。这就像你写作业,只看你正在写的那几行,而不是一眼扫完整个本子。这样一来,KV缓存的内存需求就大大降低了!
Gemma 3还在这上面玩出了新花样:它把“全局注意力”和“局部注意力”的比例调整了,从Gemma 2的1:1改成了5:1,也就是说,每5层滑动窗口注意力之后,才来一层全局注意力。而且,滑动窗口的大小也从4096缩小到了1024。这表明Gemma 3更侧重于高效的局部计算。
最重要的是,Gemma团队发现,用了这招“滑动窗口”之后,模型的性能几乎没啥影响!这简直就是“神来之笔”!
3.2 Gemma 3的归一化层:多重“检查”,安全第一!
Gemma 3在归一化层的位置上,也挺有意思的。它在分组查询注意力(GQA)模块的“前面”和“后面”都加了RMSNorm!这就好比你做重要的检查,既有“进门检查”,又有“出门检查”,双重保险,安全第一!
这跟之前的Transformer、GPT-2、Llama,还有OLMo 2都不太一样。我觉得这挺合理的,多点归一化,总归是好事,反正RMSNorm计算量也不大。
3.3 Gemma 3总结:被低估的“省钱高手”!
Gemma 3在我看来,是个有点被“低估”的“省钱高手”。它用滑动窗口注意力来提高效率,效果还特好。而且它独特的归一化层摆放方式,也让人眼前一亮。未来如果能把滑动窗口和MoE结合起来,那估计就更无敌了!
四、Mistral Small 3.1:虽然没“窗口”,但跑得快!
紧接着Gemma 3,Mistral Small 3.1 24B也来了,而且它在很多跑分上都打败了Gemma 3 27B,而且还跑得更快!
为啥它能跑得更快呢?猜测是它用了自己的定制分词器,还有就是KV缓存和层数更少。
有意思的是,之前的Mistral模型也用过滑动窗口注意力,但这次Mistral Small 3.1好像放弃了。也许是因为虽然滑动窗口能省内存,但不一定能直接加快推理速度,而Mistral Small 3.1更关注的是跑得快!
五、Llama 4:我也要“专家团”!
咱们前面铺垫了那么多MoE,现在终于轮到Llama 4了!它也加入了MoE的“豪华午餐”,而且整体架构跟DeepSeek-V3很像!
不过,Llama 4也有自己的小特色:
1. 注意力机制: Llama 4还是用它的“老相好”——分组查询注意力(GQA),而DeepSeek-V3用的是MLA。
2. MoE专家数量和大小: DeepSeek-V3的专家数量更多(9个活跃专家,每个专家隐藏层维度2048),Llama 4则专家数量更少(2个活跃专家),但每个专家更大(隐藏层维度8192)。
3. MoE层的位置: DeepSeek-V3几乎每个Transformer块都有MoE层(除了前面3个),Llama 4则是每隔一个Transformer块用MoE层,另一个用常规的“稠密”模块。
总的来说,虽然细节有所不同,但Llama 4也用了MoE,这说明MoE在2025年真是越来越火了!
六、Qwen3:密度和稀疏,我全都要!
Qwen团队一直是高质量开源大模型的“供应商”,咱们NeurIPS 2023的LLM效率挑战赛,前几名都是用Qwen2搞出来的!现在Qwen3也来了,而且一下子来了两种“口味”:稠密模型(Dense)和MoE模型(Sparse)!
6.1 Qwen3(稠密):小巧好用,学习神器!
稠密模型嘛,就是咱们平时说的传统大模型,所有参数都在一个块里。Qwen3最小的0.6B模型,简直是“麻雀虽小,五脏俱全”,性能出奇的好!它跑起来速度快,占内存也小,在咱自己电脑上跑都没问题。而且,因为小,自己在家拿它练手训练,也特别方便!简直是我的“学习神器”,Llama 3 1B都被我“抛弃”了!
跟Llama 3 1B比起来,Qwen3 0.6B更“深”(层数更多),但更“窄”(隐藏层和注意力头更少),所以虽然占内存小,但生成速度会稍微慢一点点。
6.2 Qwen3(MoE):规模化推理,就靠它!
Qwen3除了稠密模型,还有两个MoE版本。为啥要搞两种呢?
稠密模型:好比一台“多功能一体机”,啥都能干,调优和部署都比较方便。
MoE模型:就好比一台“高性能服务器”,专门为大规模推理而生。在同样的计算预算下,MoE模型能承载更多的“知识”(总参数量大),但推理时只用一部分参数,所以效率高。
Qwen3提供这两种版本,就是为了满足不同用户的需求:想要稳定、简单、好调优的,选稠密;想要高效、大规模服务的,选MoE!
值得一提的是,Qwen3的MoE模型,跟DeepSeek-V3很像,但它放弃了“共享专家”!之前的Qwen模型是有的。为啥放弃了呢?Qwen团队没说。我猜可能是因为他们的专家数量增加了(从2个到8个),“共享专家”就没那么必要了,还能省点计算和内存。
七、SmolLM3:不靠“位置”,也能知道“谁先谁后”!
SmolLM3虽然没前面几个那么火,但它是个非常有趣的“小而美”的模型,30亿参数,性能却出奇地好!而且它也像OLMo一样,把训练细节分享得特别详细,值得点赞!
SmolLM3最有意思的地方在于它用了无位置嵌入(NoPE)!
7.1 无位置嵌入(NoPE):虽然没“地标”,但知道“方向”!
在咱们大模型里,位置信息很重要,因为自注意力机制不关心词语的顺序。所以,以前的模型会通过“位置嵌入”来告诉模型每个词在哪个位置。比如,GPT早期是加一个额外的层来给每个词加上位置信息,而RoPE则是通过旋转Query和Key向量来编码相对位置。
但NoPE牛就牛在,它完全不加任何位置信息!不加固定位置,不加学习位置,不加相对位置,啥都不加!
那它怎么知道“谁先谁后”呢?它靠的是因果注意力掩码!这个掩码会阻止每个词“看到”它后面的词。所以,一个在位置t的词,它只能看到位置小于等于t的词。这样一来,虽然没有显式的位置信息,但模型还是能感知到“顺序”的,因为它知道哪些词在它前面。
NoPE的论文还发现,不加位置嵌入,模型的长度泛化能力会更好,也就是说,处理长文本的时候,性能下降没那么厉害。不过,这些实验是在小模型上做的,在大模型上效果如何,还不确定。所以SmolLM3可能只在每4层才用一次NoPE,比较谨慎。
八、Kimi K2:黑马降世,媲美“三巨头”!
最后压轴出场的,就是最近AI圈的“黑马”——Kimi K2!这哥们儿一出来,简直是“一鸣惊人”,性能直接飙到跟Google的Gemini、Anthropic的Claude、OpenAI的ChatGPT这些“大厂亲儿子”一个水平了!
Kimi K2的一个亮点是,它用了一个相对比较新的优化器——Muon优化器,而不是大家常用的AdamW。据我所知,这是第一次有这么大的生产级模型用Muon优化器,之前Muon只在160亿参数的模型上用过。而且,Kimi K2的训练损失曲线非常漂亮!
总结与展望:百花齐放,各显神通!
看了这么多大模型,有没有觉得像看了一场“武林大会”?每个模型都有自己的独门绝技,都在努力提升自己的“内功”(效率)和“招式”(性能)!
* DeepSeek-V3和Llama 4都选择了MoE这种“专家团”模式,在大参数量下保证高效推理。
* DeepSeek-V3还用了MLA这个“压缩大师”来节省KV缓存。
* Gemma 3则用了滑动窗口注意力这种“局部聚焦”的方式来省内存,还玩了花样百出的归一化层摆放。
* OLMo 2则像个“好学生”,不仅透明,还在归一化层上做了文章,力求训练稳定。
* Qwen3更是“雨露均沾”,既有传统的稠密模型,又有高效的MoE模型。
* SmolLM3则大胆尝试了NoPE这种“无招胜有招”的方式,挑战传统。
* 而Kimi K2更是个“黑马”,性能直追顶尖模型,还用了“小众”但强大的Muon优化器。
这些大模型的设计思路,都在围绕着几个核心目标:更大、更快、更省、更稳、更智能!
未来,这些“黑科技”还会怎么发展?MoE和滑动窗口注意力会不会合体?无位置嵌入会变得更普遍吗?哪个优化器会成为下一个“明星”?这些都是值得我们期待和思考的问题!
大模型的未来,就像一个充满无限可能的星辰大海,少年少女们,准备好一起去探索了吗?