当残差连接被重新发明:DeepSeek mHC 对十年深度学习共识的正面冲撞与技术底层革命


DeepSeek 通过 mHC 重新定义残差连接的数学边界,在保证稳定性的前提下释放网络结构自由度,展示了基础架构创新仍是大模型进化的核心引擎。

从不可质疑的残差连接说起:十年深度学习的隐性共识

如果你在过去十年里做过深度学习,不论是卷积网络、Transformer,还是今天的大语言模型,你几乎不可能绕开一个公式:x_{l+1} = x_l + F(x_l)。它看起来朴素得不能再朴素,但正是这个结构,支撑了从 ResNet 到 BERT,再到 GPT 系列的全部工程奇迹。残差连接被视为一种几乎不需要思考的设计,它解决了梯度消失,让网络可以无限加深,同时还具备良好的优化特性,于是它慢慢从一个聪明的工程技巧,变成了深度学习领域默认的“自然法则”。

但问题也正是在这里。越是被视为自然法则的东西,越少有人去认真追问它的代价。残差连接本质上假设了一件事:历史信息和新计算的比例是固定的,一半来自过去,一半来自当前层。这种一比一的线性叠加,在数学上稳定,在工程上可靠,但它也在结构层面冻结了模型的表达自由度。网络无法回答一个更细腻的问题:在不同深度、不同样本、不同阶段,我到底应该更信任过去,还是更信任现在。

固定比例的隐形枷锁:残差结构真正限制了什么

很多人会说,注意力机制已经够灵活了,前馈网络也足够大,为什么还要纠结残差连接这种底层结构。恰恰相反,正因为上层已经极度复杂,底层结构的刚性才变得更加致命。残差连接规定了一条不可协商的通道:无论你在这一层学到了多么重要的新特征,它都只能以和历史状态完全相同的权重进入下一层。

从信号处理角度看,这等价于在整个网络深度方向上强行施加一个固定增益为一的直通路径。这个设计保证了数值稳定,却也消灭了结构自适应的可能性。模型无法主动降低冗余历史信息的影响,也无法在关键层级放大新计算的贡献。它是一种安全但保守的妥协。

Hyper Connections 的野心:让网络学会自己走哪条路

ByteDance 在提出 Hyper Connections 时,第一次公开挑战了这个十年共识。

他们问了一个非常简单但危险的问题:如果残差连接里的加法权重不是常数,而是可以学习的矩阵,会发生什么。于是,固定的 x_l + F(x_l),被推广为一种更一般的线性组合,网络不再被限制为一条直通车道,而是可以在不同层之间进行更复杂的信息路由。

从理论上看,这种设计极具诱惑力。它意味着模型可以自动学会什么时候该保留历史,什么时候该重写记忆,甚至在不同子空间里采用完全不同的融合策略。训练速度可能更快,表达能力也可能更强,听起来几乎是免费午餐。

理论很美,现实很残酷:不受约束的自由会摧毁网络

真正的问题出现在训练开始之后。Hyper Connections 的可学习矩阵如果没有任何约束,就会在深层网络中不断叠加放大。论文中给出的结果非常直观,最大信号增益可以达到三千以上,这意味着梯度和激活值都会呈指数级爆炸。网络不是慢慢变差,而是直接数值崩溃。

这不是工程细节,而是数学必然。多个线性映射连续相乘,只要谱半径稍微大于一,深度一上来,系统就会失控。残差连接之所以稳定,正是因为那条恒等映射的增益被严格锁死在一。Hyper Connections 打开了这把锁,却没有给网络任何护栏。

DeepSeek 的关键洞察:问题不在想法,而在约束

DeepSeek 在 mHC 这篇论文中做的事情,本质上非常克制。他们没有否定 Hyper Connections 的方向,也没有回到保守的残差结构,而是直指核心矛盾:自由度必须被限制在一个安全的几何空间内。

他们引入了一个看似简单却极其有力的约束条件:所有可学习的连接矩阵必须是双随机矩阵。也就是说,矩阵中的每个元素都不小于零,每一行和每一列的和都等于一。

双随机矩阵的几何意义:不是技巧,是安全边界

这一约束并不是拍脑袋的工程规则,而是一个深刻的几何选择。双随机矩阵对应的是一个 Birkhoff 多面体,它的每一个点,都是若干置换矩阵的凸组合。换句话说,这种矩阵永远只能做一件事:加权平均。

在这种结构下,不论网络有多深,信号的放大倍率都被严格限制。你可以重新分配信息流向,可以强调某些路径,可以弱化另一些路径,但你永远不可能凭空制造能量。数学上,这保证了谱范数被控制,工程上,这意味着梯度不会爆炸。

从三千到一点六:稳定性不再是玄学

论文中给出的对比结果非常有冲击力。原始 Hyper Connections 的最大增益接近三千,而引入流形约束后的 mHC,最大增益被压缩到一点六左右。这不是小修小补,而是三个数量级的改善。

更重要的是,这种稳定性不是靠调参堆出来的,而是结构层面的硬保证。你不需要在训练时提心吊胆,也不需要靠梯度裁剪兜底,网络本身就被限制在一个安全区域内运行。

性能不是代价:mHC 在推理任务上的真实表现

如果稳定性是以性能下降为代价,那它顶多是一个工程折中。但 mHC 的结果恰恰相反。在 GSM8K、DROP 等需要多步推理和长程依赖的基准任务上,mHC 同时超过了标准残差基线和不稳定的 Hyper Connections。

这说明一件很关键的事情:残差连接的刚性并不是最优解,只是一个历史上最先被发现、且足够好用的解。当你在数学上正确地释放结构自由度,模型确实能学到更有效的信息流策略。

训练成本的现实考量:不是玩具级创新

很多结构级创新死在一个地方:算力成本。DeepSeek 在论文中非常坦率地给出了代价评估,通过内核融合等优化手段,mHC 只带来了大约百分之六的训练时间增加。

这意味着它不是一个只能写在论文里的想法,而是一个具备真实工程可行性的结构改进。对于大型模型而言,百分之六的成本换来稳定性和性能的双提升,这是一个极具吸引力的交换。

从残差到优化器:一场静悄悄的范式分裂

如果把 mHC 放在更大的背景下看,它并不是孤立事件。Moonshot 的 Kimi 团队对 AdamW 的挑战,DeepSeek 对残差连接的重构,指向的是同一个趋势:真正的突破正在回到宏观架构和优化理论本身。

当行业注意力被 Agent、产品形态和商业闭环占据时,这些团队选择回到最底层,重新审视那些我们已经习惯不去思考的设计。它们不炫技,但危险,因为它们质疑的是整个领域默认接受的前提。

作者背景与研究气质:为什么是他们敢动这块基石

DeepSeek 的研究团队并不是传统意义上资源最充沛的玩家,但他们在模型训练、系统优化和数学约束之间表现出极强的整体把控能力。这种气质决定了他们更愿意做低层次、高风险、但一旦成功就具备普适价值的工作。

这与 Moonshot 团队在优化器上的探索如出一辙。他们关注的不是短期榜单,而是长期可扩展性。这种研究取向,在当前环境下显得有些逆流,但也正因此更值得被认真对待。

为什么这件事比一篇论文更重要

mHC 真正重要的地方,不在于它是不是马上会被所有模型采用,而在于它证明了一件事:深度学习的基础结构并没有被穷尽。我们今天使用的很多设计,更像是历史路径依赖下的稳定解,而不是理论意义上的最优解。

当越来越多团队开始重新审视这些“理所当然”的组件,整个领域才有可能跳出渐进式改良,进入下一轮真正的结构性进化。

结语:真正的进步,来自对共识的不安

DeepSeek 的 mHC 并没有推翻残差连接,但它让残差连接第一次显得不再神圣。这种不安本身,就是科研最健康的状态。不是为了颠覆而颠覆,而是因为你真的理解了问题,所以你知道哪里还能更好。

在这个意义上,mHC 的价值已经超出了具体指标。它提醒我们,哪怕一个被用了十年的公式,也仍然值得被重新审视。真正的进步,往往就藏在这些被忽略已久的地方。