全铜互连受限于距离与散热 但全光互连存在成本与可靠性问题

全铜互连受限于距离与散热,铜光混合增加延迟与成本,全光互连虽具低延迟高扩展优势,但需突破光学器件成本与可靠性瓶颈。

超大规模AI训练现在最火的话题之一就是“超节点”怎么连!你可能听说过英伟达的DGX系统,但真正决定训练效率的,其实是GPU之间怎么“说话”——也就是互连技术。目前,业内主要有三条技术路线:全铜互连、铜光混合互连,还有全光互连。听起来高大上?

先说第一种:全铜互连:
这其实是目前最主流、最成熟的做法。简单理解,就是用铜缆把GPU一台一台连起来,就像你家网线连路由器那样。但问题来了——铜缆有个致命短板:传输距离太短!一般超过3米信号就衰减得厉害,根本扛不住。所以全铜方案基本只能局限在一个机柜,顶多两个挨着的机柜之间用。

可现在一个AI超节点动不动就上百张GPU,功耗高得吓人,散热压力巨大,机柜里密密麻麻全是线,连插手的地方都没有。更别说数据中心地板承重、电力供应、冷却系统能不能跟得上。

说白了,全铜互连就像在小胡同里开大卡车——不是不能跑,但根本跑不远、跑不快,更别说大规模扩展了。维护起来更是噩梦,一出问题就得拆线、拔卡、重启,效率低到让人抓狂。

那怎么办?聪明人就想:能不能“铜+光”混着用?于是第二种路线——铜光混合互连就登场了。

它的思路很清晰:
机柜内部继续用铜缆,因为距离短、成本低、延迟小;
而机柜和机柜之间,换成光纤,因为光纤传得远、带宽高。

听起来很完美对吧?但现实很骨感!这种方案必须搞两层交换架构:一层负责机柜内通信,一层负责机柜间通信。

这就带来两个大问题:
一是延迟叠加,数据从GPU出来,先过一层铜交换,再进一层光交换,来回折腾,延迟直接拉高;
二是协议复杂,系统得同时支持两种网络协议,软件栈要重新设计,调试难度飙升。

更关键的是——成本爆炸!你得买两套交换设备,铜交换机+光交换机,双倍投入,双倍维护。所以虽然铜光混合能支持多机柜扩展,但性价比和工程复杂度让它很难成为终极方案。

真正让人眼前一亮的,是第三条路:全光互连!这可不是科幻,而是正在落地的前沿技术。

它的核心思想是:干脆把铜缆全干掉,GPU直接通过光纤连到一个叫“高扇出交换机”(HighRadix Switch)的大家伙上。目前最先进的高扇出交换机,单台就能支持512个端口,每个端口200Gbps!

这意味着什么?意味着你可以一次性把512张GPU直接挂在一个网络平面上,没有层级、没有中转,通信路径最短,延迟最低。而且光纤又轻又细,布线清爽,散热压力小,部署灵活度高,未来还能轻松扩展到上千甚至上万GPU的规模。这才是真正为超大规模AI训练量身定制的“高速公路”!

但别高兴太早——全光互连现在还卡在几个硬骨头:首先是光学器件太贵!激光器、调制器、探测器,动辄几百上千美元一个,整套系统成本居高不下;其次是可靠性问题,光学元件对温度、震动、灰尘极其敏感,数据中心环境能不能长期稳定运行还是个问号;最后是制造能力,全球能批量生产高性能光模块的厂商屈指可数,供应链远远跟不上需求。所以,虽然技术方向对了,但要真正普及,还得等材料、工艺、产业链一起突破。

说到这儿,你可能想问:这些技术到底是谁在推动?其实背后站着的,是全球顶尖的芯片公司、光通信巨头和AI实验室。比如英伟达(NVIDIA)不仅在GPU上领先,也在积极布局光互连生态;像Ayar Labs、Lightmatter这些初创公司,则专注硅光芯片,试图把光学元件集成到芯片级;而Meta、微软、谷歌这些大厂,更是早在自家数据中心悄悄测试全光架构。可以说,这场“光速竞赛”,已经从实验室杀进了真实战场。

总结一下:全铜互连是“现在”,铜光混合是“过渡”,而全光互连才是“未来”。虽然前路仍有挑战,但随着AI模型越来越大,对算力集群的要求只会越来越高。谁先搞定低成本、高可靠的全光互连,谁就掌握了下一代AI基础设施的命脉!



a股有不少上市公司深度参与其上游材料、中游器件、下游应用的产业链环节,尤其集中在光通信、高速光模块、数据中心基础设施等赛道。
A股“光互连”投资主线
  • 最直接受益:中际旭创、新易盛、天孚通信(光模块+器件)
  • 上游卡位:源杰科技、仕佳光子(光芯片)
  • 生态延伸:工业富联、亨通光电、光库科技