残差连接十年未变，DeepSeek一招“信号守恒”破解大模型爆炸危机

当残差连接“爆炸”：DeepSeek的mHC如何用数学约束拯救大模型！DeepSeek提出mHC（manifold Hyper-Connection）架构，指出传统残差连接虽稳定但表达受限，而无约束的超连接（HC）在大模型中会因信号指数级放大导致训练崩溃；通过将混合矩阵强制为双随机矩阵，mHC在保留多流信息表达力的同时，严格保证信号守恒，从而实现可扩展的稳定训练。

为什么2016年的残差连接至今无人敢动？

你用过的所有大模型——GPT-5、Claude、Llama、Gemini——底层都藏着同一个八年前的设计：残差连接。

它的公式简单到令人发指：下一层的输出 = 当前输入 + 一个子模块的变换结果，即 x_{l+1} = x_l + F(x_l)。
这种结构让梯度能像高速公路一样畅通无阻地回传，使得Transformer可以堆到上百层而不崩。它不是最优的，但它稳如老狗。
正因如此，整整十年没人敢动它。

但DeepSeek团队问了一个问题：如果信息流不止一条呢？如果每一层不是简单地“加一点”，而是让多条信息流并行穿梭、动态混合，会不会更强大？于是他们提出了Hyper-Connection（HC）——一种将单流残差扩展为n路并行流的架构。听起来很酷，对吧？可惜，酷的东西往往不稳定。

超连接（HC）的致命诱惑：表达力强，但会“爆炸”

标准残差只有一条信息流，而HC引入了三个可学习的混合矩阵：H_res 控制残差路径中各流如何混合，H_pre 决定输入进入F函数前如何融合，H_post 则分配F的输出回各流。公式变成：

x_{l+1} = H_res^l x_l + (H_post^l)^T F(H_pre^l x_l, W^l)

这看起来只是多了几个矩阵，计算开销几乎不变，却带来了更强的表达能力。理论上，模型可以更灵活地路由、重组、甚至“思考”不同信息通道之间的关系。然而，问题就出在这些矩阵是“无约束”的——它们可以放大信号，而不只是混合。

在作者的10M参数复现实验中，使用激进学习率时，HC的信号放大倍数（用Amax衡量，即矩阵行/列绝对值和的最大值）在60层后累积到304倍。而在DeepSeek自己的27B模型上，这个数字达到了惊人的3000倍！这意味着，哪怕每层只放大1.1倍，几十层叠加后信号就会指数级膨胀，最终导致数值溢出、训练崩溃。这不是性能瓶颈，这是物理法则般的必然。

信号放大有多可怕？一个小实验说清楚

作者在TinyShakespeare数据集上训练了约10M参数的GPT-2变体，固定总参数量，调整层数从6到24。结果发现：随着深度增加，验证损失先降后升——深度20时达到最佳（0.85），但深度24时反而恶化到0.93。与此同时，Amax值毫无规律地跳动：深度8时是4.3倍，深度12跳到6.6倍，深度20竟飙升至9.2倍。这说明HC的行为是混沌的——微小的初始化差异或深度变化，都会引发信号放大的剧烈波动。

更可怕的是种子敏感性。用三个不同随机种子训练深度24的HC模型，验证损失标准差高达±0.033，而Amax在6.1到7.6之间摇摆。相比之下，加入约束的mHC模型损失标准差仅±0.012，Amax恒为1.00——零方差，绝对稳定。在小模型上，HC还能靠运气赢；但在27B这样的庞然大物面前，一次3000倍的放大足以让整个训练归零。

DeepSeek的解法：不靠学习稳定，而是让不稳定“不可能发生”

面对HC的爆炸问题，DeepSeek没有试图调学习率、改初始化或加正则——那些都是治标。他们做了一件更根本的事：把混合矩阵约束为双随机矩阵（doubly stochastic matrix）。

什么是双随机矩阵？简单说，就是所有元素非负，且每一行之和为1，每一列之和也为1。这种矩阵的本质是一个“加权平均器”——它只能对多个信号流取平均、重新分配权重，但绝不能放大或缩小整体信号强度。就像一个公平的调度员，只负责调配资源，不制造也不销毁。

那么，如何让神经网络学会这样的矩阵？答案是Sinkhorn-Knopp算法。具体步骤如下：

1. 先让网络自由学习一个原始权重矩阵 H；
2. 对 H 取指数：P = e^H，确保所有元素为正；
3. 归一化每一行，使其和为1；
4. 再归一化每一列，使其和为1；
5. 重复步骤3-4约20次，直到收敛。

神奇的是，这个过程是可微分的！梯度可以一路反向传播穿过20次迭代，最终更新原始的 H。网络学的是“潜在权重”，而实际使用的混合矩阵始终是双随机的。这就相当于给模型戴了一个“安全头盔”——你可以尽情探索，但撞墙是不可能的。

技术细节上，并非所有矩阵都需要完整Sinkhorn处理。只有 H_res（残差路径中的递归混合矩阵）必须严格双随机，因为它在层间反复作用，误差会累积。而 H_pre 和 H_post 只需通过sigmoid等函数限制在[0,1]区间即可，避免过度放大。这样既保证关键路径稳定，又节省计算。

mHC不是退步，而是更高阶的守恒律

有人可能会说：这不就是把模型“阉割”了吗？确实，在10M参数实验中，mHC的验证损失（1.116）略高于HC（0.884）。看起来像是为了稳定牺牲了性能。但这种看法忽略了尺度效应——在小模型上，不稳定尚可容忍；在大模型上，不稳定等于死亡。（在不稳定与阉割之间如何抉择？软件Bug很多的系统运行十年，只有初生牛犊才敢动，一动就死给你看，更何况机制都没有摸透的大模型！）

更重要的是，mHC并非回归原始残差。原始残差是“身份映射”：x + F(x)，信号完全保留。而mHC允许多流信息动态混合，只是禁止放大。它是在一个更丰富的流形（manifold）上实现信号守恒。这就像从“单车道直路”升级为“多车道立交桥”，但每条车道都有严格的流量控制，防止拥堵或失控。

DeepSeek的洞见在于：残差连接本质上是一种守恒律。
就像物理学中的能量守恒，它限制了系统的行为边界，却因此让预测成为可能。
2016年，ResNet解决了信号消失问题；2026年，mHC解决了信号爆炸问题。前者靠“不丢失”，后者靠“不放大”。两者看似相反，实则同源——都是通过结构性约束换取可扩展性。Transformer共同发明人怒吼别再调参了：无数次微调抵不上一次跃迁

复现路上的血泪教训：架构bug比数学错误更隐蔽

作者在复现mHC时踩了一个极其隐蔽的坑：代码逻辑看似正确，公式也对，训练也能跑，但效果始终不对。后来才发现，自己在每层结束时把多流输出“投影回单流”，下一层再重新展开为多流。这等于把“超连接”变成了“伪超连接”——多流并行从未真正发生，信息始终被压缩在单通道里。

这个bug之所以难查，是因为它不报错、不崩溃、数学推导也成立。只有当作者追问“层与层之间实际流动的数据形状是什么？”时，才意识到架构层面的断裂。这提醒所有研究者：在复杂系统中，正确的数学不等于正确的实现。有时候，一个reshape操作就能毁掉整个创新。

稳定性不是限制，而是通往更大规模的通行证

很多人认为“约束=限制创造力”，但在工程世界，约束往往是可靠性的基石。mHC的设计哲学正是如此：与其让模型在悬崖边跳舞，不如直接修一道护栏。双随机约束看似“不优雅”，但它把稳定性从概率事件变成了确定性保障。

这也解释了为什么标准残差能统治十年——它不是最强的，但它是最可预测的。在AI模型越来越大的今天，可预测性比峰值性能更重要。你可以接受稍高的损失，但不能接受训练到第3天突然NaN。mHC找到了中间地带：比标准残差更表达丰富，比无约束HC更稳定可靠。

下一步：从小模型验证到十亿级压力测试

本文只是第一部分。作者计划在第二部分将模型规模提升至10亿参数，在A100上使用C4数据集进行训练，固定宽度以避免瓶颈效应。目标很明确：复现DeepSeek论文中提到的“3000倍Amax”崩溃场景，并验证mHC是否真能在Billion级别守住防线。

在10M参数时，HC的9.2倍放大尚属“可控混乱”；但在1B甚至27B参数下，同样的机制会引发灾难性连锁反应。这场实验不仅关乎一个架构的成败，更关乎整个大模型社区对“可扩展性”的理解——我们是否愿意为了稳定性，放弃一部分理论上的表达自由？

结语：守恒，才是大模型时代的底层逻辑

从ResNet到Transformer，再到mHC，AI架构的演进其实是一场关于“信号守恒”的探索。早期我们怕信号消失，于是加残差；现在我们怕信号爆炸，于是加约束。未来，或许会有更多“守恒律”被引入：注意力熵守恒、梯度流守恒、甚至知识守恒。

DeepSeek的mHC不是一个终点，而是一个信号：当模型越来越大，结构性保证将比端到端学习更重要。你无法靠调参驯服3000倍的放大，但你可以用数学让它根本不会发生。

极客一语道破

这种用数学公式追求确定性的心理是人类共有，但是如今是拥抱不确定性的时代，别让不确定性的大模型涌现被人类确定性焦虑磨平了！

残差连接十年未变，DeepSeek一招“信号守恒”破解大模型爆炸危机

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道