DeepSeek mHC超频残差流:用数学+工程双杀破解大模型内存墙


DeepSeek通过超频残差流,将残差流拓扑拓宽并约束于双随机矩阵流形,结合深度系统工程,实现了稳定、高效、可扩展的宏观架构创新,将AI基础设施竞争焦点从峰值算力转向内存带宽、互连与软件栈成熟度。

从算力墙走向记忆墙 大模型真正的天花板正在转移

过去几年,大模型Scaling Law几乎成了行业金科玉律——参数越多、数据越多、算力越多,效果就越好。但大家逐渐发现,单纯堆FLOPs(浮点运算次数)的红利正在见顶。

如果你还在用参数规模和 FLOPs 去理解大模型的进化,那这篇文章基本就是一次当头棒喝。

这时候,DeepSeek祭出了一记狠招:宏观架构创新。他们没有去改注意力机制、也没有调FFN结构,而是直接对Transformer的“血脉”——残差连接(residual connection)动刀。

传统残差连接就像一条单车道高速公路,信息从浅层一路畅通无阻地传到深层。而DeepSeek提出的mHC(manifold-constrained Hyper-Connections)则把这条路拓宽成四车道(n=4),让模型在不增加主干计算(attention + FFN)FLOPs的前提下,携带更丰富的状态信息。

听起来很美,但问题来了:路宽了,车流却容易失控!此前的“超连接”(HC)方案就因为残差映射矩阵无约束,导致训练到12000步左右突然loss飙升、梯度爆炸,根本没法用。

DeepSeek的突破在于,他们不仅敢拓宽,还用数学给这条路装上了“智能交通系统”——把残差混合矩阵H_res硬性约束在双随机矩阵(doubly stochastic matrices)的流形上,也就是每行每列加起来都等于1、且所有元素非负。这样一来,信息流动就像被限速+车道隔离,再宽也不会翻车。

DeepSeek 在 mHC 中明确传递了一个信号:模型质量继续提升,已经不再单纯取决于注意力和前馈层堆多少算力,而是越来越被残差流里能承载多少稳定状态所限制。
当模型规模来到 10B、20B 乃至更高,真正的瓶颈不在矩阵乘得够不够快,而在激活值在显存、HBM、跨卡互联中能否被安全、可控地搬运和复用。

mHC 正是在这个背景下提出的,它不是一次微小模块优化,而是一次针对残差拓扑的宏架构调整。


为什么普通HC在大规模训练中会“翻车”?

要理解mHC的价值,得先搞懂HC为何会崩。

残差连接的本质是维持一个“恒等映射”(identity mapping),保证信号在几十甚至上百层网络中既不会衰减到消失,也不会放大到爆炸。

标准Transformer通过x_{l+1} = x_l + F(x_l) 天然实现这一点。

但HC把x_l从C维扩展到n×C维,并引入三个可学习的线性映射:H_res负责在n个并行流之间混合,H_pre把宽流聚合回标准层输入,H_post再把层输出广播回去。
问题就出在H_res上——如果它是个任意矩阵,那么跨多层的复合映射就是H_res^L(L为uu数)。即便单层H_res看起来增益接近1,多层相乘后可能变成恐怖的3000倍放大!

DeepSeek 给出的解释非常直接。超连接的核心矩阵 H_res 在每一层看起来都很温和,单层增益接近 1,但跨越上百层之后,等效映射其实是这些矩阵的连乘。只要其中存在一点点放大方向,复合增益就会呈指数级增长。实验中他们在 27B 参数规模下观察到,在大约 12000 step 左右,训练损失突然暴涨,梯度范数失控,对应的反向最大增益接近 3000。这不是随机噪声,而是结构性不稳定,是架构层面的系统性问题。

报告里用“Amax Gain Magnitude”指标量化了这一点:HC在27B模型训练中,反向传播的复合增益峰值飙到近3000,直接导致梯度爆炸和loss突增。这就像你在家拧水龙头,本想调个温水,结果管道里积压的压力突然释放,喷你一脸。

HC的问题不是理论不行,而是在超大规模训练下,数值稳定性彻底失控。DeepSeek的洞察在于:宏观架构的创新不能只看表达能力,必须考虑深度优化的动态稳定性。否则,再炫酷的设计也只是实验室玩具。

双随机矩阵:用数学给残差流装上“防爆阀”

那么,DeepSeek是怎么给残差流装上防爆阀的?mHC 的突破点在于不再试图用正则项或初始化技巧去压制这种不稳定,而是从几何结构上直接封死危险空间。
mHC 的核心思想 用流形约束住残差混合!
答案是:把H_res矩阵投影到Birkhoff多面体上——也就是所有双随机矩阵的集合。

DeepSeek 把残差混合矩阵 H_res 约束为双随机矩阵,也就是每一行和每一列的和都等于 1,且所有元素非负。数学上,这等价于把参数空间限制在 Birkhoff 多面体之内,也就是所有置换矩阵的凸包。

这个选择极其关键,因为双随机矩阵在谱范数上天然不超过 1,并且在矩阵乘法下是封闭的,多层连乘仍然是双随机矩阵,从根本上杜绝了跨层放大失控。

双随机矩阵有三大神技:
第一,谱范数(spectral norm)不超过1,意味着它在l2范数下是非扩张的,从根本上掐死了梯度爆炸的可能;
第二,双随机矩阵的乘积还是双随机矩阵,这就保证了无论网络多深,复合映射始终在安全区内,不会随层数增加而失控;
第三,它能保持跨流的均值信号守恒,因为行和列都为1,相当于做的是凸组合(convex combination),信息只是在不同流之间重新分配,不会凭空产生或消失。

更妙的是,Birkhoff多面体是置换矩阵(permutation matrices)的凸包,这意味着模型既能学到接近“路由”(routing)的稀疏行为(比如把某一流的信息几乎完整地传递到另一流),又能保持整体稳定。这就像高速公路不仅拓宽了,还加了智能调度系统,车流可以灵活变道,但绝不会追尾。

为了把这一数学约束变成可训练的模块,DeepSeek用Sinkhorn-Knopp算法来实现投影:先对未约束的矩阵tilde_H_res做exp操作,再通过20次迭代的行列归一化,逼近双随机矩阵。虽然20次迭代不是精确解,但报告测得复合增益最大也就1.6,相比HC的3000,简直是天壤之别。


为什么双随机不是削弱表达力 而是重塑表达力

乍一看,这种约束似乎会严重限制模型能力,但 DeepSeek 的解释非常有说服力。

Birkhoff 多面体并不是一个狭小空间,它包含了所有置换矩阵的凸组合,这意味着模型依然可以实现近似路由、近似重排、近似选择性传递等复杂行为,只是这些行为不再以数值爆炸为代价。

换句话说,mHC 把原本像线性动力系统一样不可控的残差流,重塑成一种受约束的信息运输与融合机制,表达力仍在,但稳定性第一次变成了结构保证。


不止H_res:读入/写出映射也要“防抖”

光约束H_res还不够,DeepSeek还对H_pre和H_post加了“防抖”措施——强制非负性。

为什么?因为如果这些映射的系数有正有负,就可能发生信号抵消(cancellation),尤其在宽流状态下,微小的数值抖动会被放大,导致训练不稳定。他们的实现很巧妙:用sigmoid函数σ(·)来参数化H_pre,确保输出在(0,1)之间;而H_post则用2σ(·),把范围扩大到(0,2),这样既能保持非负,又避免因系数太小而导致信号衰减。

这种设计相当于在信息进入和离开宽流时,都加了一层“单向阀”,只允许信号相加,不允许相互抵消。

整个残差流系统就变成了一个结构化的“特征传输与融合”机制,而不是一个容易失控的线性动力系统。这种对细节的极致把控,正是DeepSeek工程能力的体现——他们不只关注宏观创新,还把每个可能的数值陷阱都填平了。

这种设计看似细节,却直接决定了宽残差流在数值层面是否会产生缓慢漂移。mHC 在这里的思路非常工程化,不追求对称美感,而是优先保证数值行为可控。

训练上如何把流形约束变成可微算子

真正让 mHC 落地的,是 Sinkhorn-Knopp 投影。

DeepSeek 先对 H_res 的 logits 做指数映射,然后反复进行行归一化和列归一化,逼近双随机矩阵。实验中他们使用了 20 次迭代,在数值稳定性和算力开销之间取得平衡。值得注意的是,这里并不是数学上严格的投影,而是一个近似算子,这也是为什么最终复合增益不是严格等于 1,而是上限约 1.6,但相比 3000 级别的爆炸,这已经是质变。


让内存墙上的创新变得“可量产”:系统工程才是胜负手

很多人可能会说:理论很美,但宽一倍的残差流,内存和通信开销不得爆炸?没错!HC之所以没人用,就是因为它的内存墙太高。报告里算了一笔账:当n=4时,HC每token的前向内存读取量从标准的2C飙升到21C,写入从C涨到13C,通信量也大致按n倍增长。

这在千卡集群上,光是pipeline并行的通信气泡(bubble)就能吃掉所有算力收益。

DeepSeek的真正牛逼之处,是他们用一整套系统级优化,把理论上的6.7%时间开销(n=4时)变成了现实。这可不是调参能解决的,而是硬核的底层工程:
他们重写了RMSNorm,把它和线性投影融合,避免显式存储归一化后的激活值;
他们用混合精度(bfloat16输入、tfloat32计算、float32输出)压榨硬件带宽;
他们写了三个专用kernel,包括一个单kernel的Sinkhorn-Knopp实现和一个自定义反向传播kernel,能在芯片上重计算中间结果,省下大量显存。

最狠的是,他们把H_post和H_res的应用与残差合并操作fuse在一起,仅这一步就把读取量从(3n+1)C降到(n+1)C,写入从3nC降到nC,对n=4来说,读写减少超60%!没有这些,mHC就是空中楼阁。

重计算+通信重叠:榨干每一滴硬件性能

除了kernel fusion,DeepSeek还在重计算(recomputation)和通信重叠上玩出了花。

宽残差流让激活内存暴涨,他们采用分块重计算策略:每L_r层为一个block,只存block的输入x_{l0}和每层FFN的输出(因为FFN结果必须用于反向传播),中间mHC的激活全部丢弃,反向时重算。

他们甚至推导出了近似最优的block大小L_r* ≈ sqrt(nL/(n+2)),在显存和计算之间找平衡。

更绝的是,他们把这套策略和pipeline并行深度耦合——重计算block的边界必须和pipeline stage对齐,避免跨stage重计算带来的额外通信。

在通信方面,他们扩展了DeepSeek-V3里的DualPipe调度器,用高优先级计算流跑FFN相关kernel,绝不阻塞通信流;还避免在attention层用持久化kernel(persistent kernel),让调度器能灵活抢占,把通信和计算的overlap做到极致。

这些优化听起来枯燥,但正是它们让mHC从“理论上可行”变成了“工程上高效”。

实测数据:mHC不仅稳了,还更强了

说了这么多,效果到底如何?报告给出了硬核数据。

无论是从 3B 到 27B 的算力扩展,还是在固定 3B 模型上拉长到 1.05T token 的数据扩展,mHC 的优势都没有消失。这一点非常关键,因为很多结构性改进只在中小规模有效,一旦 scale 上去就被噪声淹没,而 mHC 至少在当前区间内表现出稳定的尺度一致性。

局限与风险:mHC不是万能药

当然,mHC也有它的局限。

首先,它是在DeepSeek-V3风格的MoE架构(含MLA注意力、64-72专家等)上验证的,换到纯稠密模型或其他架构上效果未知。
其次,双随机和非负约束虽然保稳,但也限制了模型的表达能力——MATH任务上略输HC,可能就是因为某些需要“破坏性”混合的任务被约束住了。
第三,Sinkhorn-Knopp用20次迭代只是近似,数值稳定性依赖这个近似精度,如果n变大(比如n=8),迭代成本和近似误差都会增加。

最后,也是最关键的:mHC的6.7%开销依赖大量定制kernel和系统优化,普通团队想复现,没个强大的编译器和kernel工程团队,根本搞不定。这无形中抬高了技术门槛,让创新红利集中在垂直整合的巨头手里。

投资启示:AI基础设施的重心正在迁移

mHC的出现,给整个GAI生态投下了一颗重磅炸弹。

它清晰地传递了一个信号:未来的竞争,不再是单纯比谁的FLOPs高,而是比谁的内存带宽足、互连延迟低、软件栈成熟。

对模型公司而言,宏观架构创新+系统工程的组合拳将成为新的护城河,纯research团队的复制难度大增。

对云厂商和GPU集群来说,mHC这类宽激活状态的架构,会进一步放大高端硬件(如HBM3e、NVLink)和高速网络(InfiniBand)的价值,因为它们直击内存墙痛点。

对硬件厂商,这利好那些既有高带宽内存、又有成熟编译生态(如CUDA + Triton / TileLang)的玩家,因为mHC的性能几乎完全依赖kernel fusion和混合精度支持。对内存和封测厂,HBM和先进封装(如CoWoS)的需求只会更旺。

对软件工具链,能自动化生成fuse kernel、支持自定义反向的编译器和框架,将成为稀缺资源。甚至对推理端,如果mHC能用更小模型达到同等效果,可能颠覆现有的推理成本结构。

总之,mHC不是一个孤立的技术,它是一面镜子,照出了AI基础设施正在从“算力中心”向“内存-互连-软件”三位一体演进。

对生成式 AI 生态的真正影响 不在论文结论里
mHC 最重要的意义,不是某个 benchmark 提升了几点,而是它清晰地指向了下一阶段竞争的主战场。

模型架构开始主动拥抱内存墙现实,系统软件、HBM 带宽、互联网络、编译器和 kernel 生态的价值被进一步放大。

未来的优势,可能不属于算力堆得最多的人,而属于最会在内存和通信约束下设计结构的人。


标题:残差流也能“超频”?DeepSeek用数学+工程双杀破解大模型内存墙!