AWS(亚马逊云)怎么在英伟达越来越“封闭”的AI服务器生态里杀出一条血路!你可能不知道,现在全球最顶尖的AI训练集群,几乎都被英伟达“绑死”了。从GPU到网卡,再到驱动、固件、电源、散热,甚至机柜设计,英伟达都给你安排得明明白白。但AWS偏不认这个命,他们说:“我的网络我做主!”
于是,一场关于自研网卡、解耦设计、可靠性革命的大戏,就在GB300这代AI服务器上轰轰烈烈上演了。
先说背景:上一代GB200的时候,AWS其实已经有点憋屈了。他们想搞一个真正意义上的NVL72——也就是72块GPU通过NVLink全互联的超级计算域。但问题来了:AWS坚持要用自家的K2v5网卡,这套网卡跑的是他们自研的EFA(弹性光纤适配器)协议,号称比英伟达的RoCEv2(一种基于以太网的远程直接内存访问技术)更快、更稳、更适合大规模AI训练。为了塞进9块200GbE的K2v5网卡(8块用于EFA后端通信,1块用于前端EBS/ENA存储和网络),他们只能选择2U高度的计算托盘。而英伟达官方的NVL72设计只支持1U托盘,根本塞不下这么多网卡。所以AWS退而求其次,搞了个“伪NVL72”——实际上是两个NVL36通过NVLink ACC线缆拼起来的NVL36x2方案。
但这个拼凑方案问题一大堆!很多用过AWS GB200的客户,尤其是GCP(谷歌云)和AWS自家的大客户都反馈:NVL36x2的驱动支持烂透了,bug多到离谱,稳定性远不如原生NVL72。而且从拓扑结构上看,它根本不是真正的全互联72 GPU域,通信延迟和带宽都有明显瓶颈。AWS嘴上说这是“NVL72”,实际上只是营销话术,内行人一看就知道是妥协产物。
到了GB300这一代,英伟达彻底摊牌:我们只支持原生NVL72,不再提供NVL36x2的参考设计!这意味着AWS如果还想用自家的EFA网卡,就必须面对一个残酷现实:1U的NVL72计算托盘,物理空间根本塞不下9块400GbE的K2v6网卡(这是K2v5的升级版,带宽翻倍)。
那怎么办?换英伟达的ConnectX-8网卡?AWS高层直接摇头——他们坚信自家EFA在性能和用户体验上全面碾压RoCEv2,绝不能退让。
于是,AWS祭出了一个“脑洞大开”的解决方案:把网卡从计算托盘里彻底剥离出来!他们在机柜旁边加了一个专门放网卡的“侧车”(sidecar),名字起得特别接地气——JBOK,全称是“Just a Bunch of K2v6 NICs”,翻译过来就是“一堆K2v6网卡”。这个JBOK单元高2U,一整柜能塞18个这样的托盘,每个托盘刚好容纳9块400GbE的K2v6网卡,空间绰绰有余。
那计算托盘和网卡侧车怎么连?靠的是一种叫AEC的高速线缆。AEC全称是“Active Electrical Cable”,中文叫“有源铜缆”。它不是普通的网线,而是内置信号放大和均衡芯片的高性能铜缆,能在1~2米距离内稳定传输400G甚至800G的高速信号,成本比光模块低得多,延迟也更低。通过PCIe OSFP-XD接口(一种高密度光模块封装形态,但这里走的是电口),计算托盘里的GPU直接通过AEC线连到JBOK里的K2v6网卡上。
这个设计有多牛?
首先,它彻底打破了英伟达“计算+网络”一体化的铁板。以前在英伟达参考设计里,每块GPU只连一块ConnectX-8网卡,一旦网卡故障,整个GPU可能就“失联”了。而AWS的新架构里,每块GPU同时连两块K2v6网卡!这意味着就算一块网卡挂了,通信还能走另一条路,系统不会崩溃——这对训练几天甚至几周的大模型来说,简直是救命稻草。
其次,AWS保住了对网络栈的完全控制权。EFA协议是他们多年打磨的成果,深度优化了AI训练中的集合通信(比如AllReduce)、容错机制和拥塞控制。如果被迫用RoCEv2,不仅性能可能打折扣,还得受制于英伟达的驱动更新节奏和bug修复效率。现在,他们自己说了算。
当然,代价也不小。
整个机柜多了JBOK侧车,多了几十根AEC线缆,布线复杂度飙升,运维难度加大,故障点也变多了。有人就质疑:这真的值得吗?万一EFA的实际体验并不比RoCEv2强,那不是白折腾?就连知名科技媒体SemiAnalysis也表示:“我们还没被说服EFA真的全面领先,但愿意保持开放态度。”
但AWS显然已经押上重注。他们相信,在AI军备竞赛进入深水区的今天,网络就是命脉。谁掌控了低延迟、高可靠、可编程的网络,谁就能在大模型训练效率上拉开代差。与其跪着用英伟达的“全家桶”,不如站着自己造轮子。哪怕多花点工程成本,也要把命运攥在自己手里。
更深层看,这其实是云计算巨头和芯片巨头之间的一场权力博弈。英伟达想通过软硬一体锁定客户,而AWS、谷歌、微软这些超大规模云厂商,绝不甘心沦为“GPU搬运工”。他们要的是端到端的自主可控——从芯片到框架,从电源到网络,全部自己定义。JBOK只是这场战争中的一个战术动作,背后是战略级的去依赖化。
未来会怎样?没人敢打包票。但如果AWS的EFA真能在实际大规模训练中展现出明显优势,比如训练时间缩短10%、故障率降低50%,那这套“解耦+冗余+自研”的架构就可能成为行业新范式。甚至可能倒逼英伟达重新开放更多接口,或者让其他云厂商跟进类似设计。
(注:文中AEC指Active Electrical Cable,即有源铜缆,是一种用于短距离高速数据传输的电缆,内部集成信号调理电路,可在保持低延迟的同时支持400G/800G速率,常用于服务器与交换机或侧车设备之间的互连。)
什么是 AEC(有源铜缆)?
AEC 是一种内置信号放大、均衡或重定时芯片的高性能铜缆,用于短距离(通常 1~5 米)高速数据传输,常见于数据中心内部设备互联,比如服务器与交换机、GPU 与网卡之间。
- 特点:
- 支持 400G、800G 甚至 1.6T 高速接口;
- 延迟极低(比光模块更低);
- 功耗和成本显著低于光模块;
- 物理上仍是铜线,但通过芯片补偿信号衰减,实现远超传统无源铜缆的传输距离和速率。
- 应用场景:
- AI 集群中 GPU 与 NIC(网卡)的互连;
- 机柜内服务器与侧车(sidecar)设备连接(如 AWS 的 JBOK 架构);
- NVLink、PCIe、以太网等高速总线的延伸。
在你提到的 AWS GB300 架构中,AEC 被用来连接 1U 计算托盘和 2U 网卡侧车(JBOK),让 GPU 能通过 PCIe 信号直连自研 K2v6 网卡,既节省空间,又保持高性能。
AEC 与 A 股上市公司
目前 A 股尚无公司直接以“AEC 有源铜缆”作为核心产品大规模量产,但以下几类企业正在布局或受益于该技术趋势:
1. 高速连接器与线缆厂商
- 鼎通科技(688668):深耕高速背板连接器,产品用于服务器、AI 加速卡,具备向 AEC 延伸的技术基础。
- 意华股份(002897):生产高速连接器及组件,客户包括华为、中兴、部分云厂商,正拓展 800G 互连方案。
- 沃尔核材(002130):旗下子公司乐庭电线布局高速数据线缆,已开发 400G/800G DAC(含 AEC)样品。
2. 光模块/高速互连综合方案商
- 中际旭创(300308):虽主攻光模块,但已布局铜缆互连生态,可能通过并购或合作切入 AEC。
- 新易盛(300502)、天孚通信(300394):聚焦光器件,但密切关注铜缆在短距场景对光模块的替代趋势。
3. 芯片与信号调理配套
AEC 的核心在于内置的 Retimer(重定时器)或 Redriver(信号增强器)芯片,这方面国内仍依赖进口(如 Marvell、Broadcom、Semtech)。但以下公司正在追赶:
- 裕太微(688515):国产高速 PHY 芯片厂商,产品覆盖车载、企业网,未来或拓展数据中心 Retimer。
- 创发科技(未上市)、云豹智能(未上市):部分初创企业布局 PCIe/CXL Retimer,但尚未规模商用。
投资逻辑与风险提示
- 机会:随着 AI 集群密度提升(如 GB300、NVL72),机柜内短距高速互连需求暴增,AEC 因低成本、低延迟优势,有望在 2 米内场景替代光模块,市场空间快速打开。
- 风险:A 股公司目前多处于“技术储备”或“小批量送样”阶段,尚未形成明确营收贡献;且高端 Retimer 芯片仍被海外垄断,国产化率低。
总结
AEC(有源铜缆)是 AI 数据中心关键互连技术之一,在 AWS 等超大规模云厂商推动下加速落地。A 股暂无纯正标的,但鼎通科技、意华股份、沃尔核材等连接器/线缆企业具备潜在切入能力,可关注其 800G DAC/AEC 产品进展。长期看,若国产 Retimer 芯片突破,将打开更大想象空间。