亚马逊云自研EFA网卡+AEC，摆脱显卡出身英伟达章鱼爪！

为摆脱英伟达软硬件绑定，AWS在GB300上首创“JBOK”网卡侧车架构，用自研EFA网卡实现更高可靠性和自主权。

AWS（亚马逊云）怎么在英伟达越来越“封闭”的AI服务器生态里杀出一条血路！你可能不知道，现在全球最顶尖的AI训练集群，几乎都被英伟达“绑死”了。从GPU到网卡，再到驱动、固件、电源、散热，甚至机柜设计，英伟达都给你安排得明明白白。但AWS偏不认这个命，他们说：“我的网络我做主！”

于是，一场关于自研网卡、解耦设计、可靠性革命的大戏，就在GB300这代AI服务器上轰轰烈烈上演了。

先说背景：上一代GB200的时候，AWS其实已经有点憋屈了。他们想搞一个真正意义上的NVL72——也就是72块GPU通过NVLink全互联的超级计算域。但问题来了：AWS坚持要用自家的K2v5网卡，这套网卡跑的是他们自研的EFA（弹性光纤适配器）协议，号称比英伟达的RoCEv2（一种基于以太网的远程直接内存访问技术）更快、更稳、更适合大规模AI训练。为了塞进9块200GbE的K2v5网卡（8块用于EFA后端通信，1块用于前端EBS/ENA存储和网络），他们只能选择2U高度的计算托盘。而英伟达官方的NVL72设计只支持1U托盘，根本塞不下这么多网卡。所以AWS退而求其次，搞了个“伪NVL72”——实际上是两个NVL36通过NVLink ACC线缆拼起来的NVL36x2方案。

但这个拼凑方案问题一大堆！很多用过AWS GB200的客户，尤其是GCP（谷歌云）和AWS自家的大客户都反馈：NVL36x2的驱动支持烂透了，bug多到离谱，稳定性远不如原生NVL72。而且从拓扑结构上看，它根本不是真正的全互联72 GPU域，通信延迟和带宽都有明显瓶颈。AWS嘴上说这是“NVL72”，实际上只是营销话术，内行人一看就知道是妥协产物。

到了GB300这一代，英伟达彻底摊牌：我们只支持原生NVL72，不再提供NVL36x2的参考设计！这意味着AWS如果还想用自家的EFA网卡，就必须面对一个残酷现实：1U的NVL72计算托盘，物理空间根本塞不下9块400GbE的K2v6网卡（这是K2v5的升级版，带宽翻倍）。

那怎么办？换英伟达的ConnectX-8网卡？AWS高层直接摇头——他们坚信自家EFA在性能和用户体验上全面碾压RoCEv2，绝不能退让。

于是，AWS祭出了一个“脑洞大开”的解决方案：把网卡从计算托盘里彻底剥离出来！他们在机柜旁边加了一个专门放网卡的“侧车”（sidecar），名字起得特别接地气——JBOK，全称是“Just a Bunch of K2v6 NICs”，翻译过来就是“一堆K2v6网卡”。这个JBOK单元高2U，一整柜能塞18个这样的托盘，每个托盘刚好容纳9块400GbE的K2v6网卡，空间绰绰有余。

那计算托盘和网卡侧车怎么连？靠的是一种叫AEC的高速线缆。AEC全称是“Active Electrical Cable”，中文叫“有源铜缆”。它不是普通的网线，而是内置信号放大和均衡芯片的高性能铜缆，能在1~2米距离内稳定传输400G甚至800G的高速信号，成本比光模块低得多，延迟也更低。通过PCIe OSFP-XD接口（一种高密度光模块封装形态，但这里走的是电口），计算托盘里的GPU直接通过AEC线连到JBOK里的K2v6网卡上。

这个设计有多牛？

首先，它彻底打破了英伟达“计算+网络”一体化的铁板。以前在英伟达参考设计里，每块GPU只连一块ConnectX-8网卡，一旦网卡故障，整个GPU可能就“失联”了。而AWS的新架构里，每块GPU同时连两块K2v6网卡！这意味着就算一块网卡挂了，通信还能走另一条路，系统不会崩溃——这对训练几天甚至几周的大模型来说，简直是救命稻草。

其次，AWS保住了对网络栈的完全控制权。EFA协议是他们多年打磨的成果，深度优化了AI训练中的集合通信（比如AllReduce）、容错机制和拥塞控制。如果被迫用RoCEv2，不仅性能可能打折扣，还得受制于英伟达的驱动更新节奏和bug修复效率。现在，他们自己说了算。

当然，代价也不小。

整个机柜多了JBOK侧车，多了几十根AEC线缆，布线复杂度飙升，运维难度加大，故障点也变多了。有人就质疑：这真的值得吗？万一EFA的实际体验并不比RoCEv2强，那不是白折腾？就连知名科技媒体SemiAnalysis也表示：“我们还没被说服EFA真的全面领先，但愿意保持开放态度。”

但AWS显然已经押上重注。他们相信，在AI军备竞赛进入深水区的今天，网络就是命脉。谁掌控了低延迟、高可靠、可编程的网络，谁就能在大模型训练效率上拉开代差。与其跪着用英伟达的“全家桶”，不如站着自己造轮子。哪怕多花点工程成本，也要把命运攥在自己手里。

更深层看，这其实是云计算巨头和芯片巨头之间的一场权力博弈。英伟达想通过软硬一体锁定客户，而AWS、谷歌、微软这些超大规模云厂商，绝不甘心沦为“GPU搬运工”。他们要的是端到端的自主可控——从芯片到框架，从电源到网络，全部自己定义。JBOK只是这场战争中的一个战术动作，背后是战略级的去依赖化。

未来会怎样？没人敢打包票。但如果AWS的EFA真能在实际大规模训练中展现出明显优势，比如训练时间缩短10%、故障率降低50%，那这套“解耦+冗余+自研”的架构就可能成为行业新范式。甚至可能倒逼英伟达重新开放更多接口，或者让其他云厂商跟进类似设计。

（注：文中AEC指Active Electrical Cable，即有源铜缆，是一种用于短距离高速数据传输的电缆，内部集成信号调理电路，可在保持低延迟的同时支持400G/800G速率，常用于服务器与交换机或侧车设备之间的互连。）

什么是 AEC（有源铜缆）？

AEC 是一种内置信号放大、均衡或重定时芯片的高性能铜缆，用于短距离（通常 1～5 米）高速数据传输，常见于数据中心内部设备互联，比如服务器与交换机、GPU 与网卡之间。

- 特点：
- 支持 400G、800G 甚至 1.6T 高速接口；
- 延迟极低（比光模块更低）；
- 功耗和成本显著低于光模块；
- 物理上仍是铜线，但通过芯片补偿信号衰减，实现远超传统无源铜缆的传输距离和速率。

- 应用场景：
- AI 集群中 GPU 与 NIC（网卡）的互连；
- 机柜内服务器与侧车（sidecar）设备连接（如 AWS 的 JBOK 架构）；
- NVLink、PCIe、以太网等高速总线的延伸。

在你提到的 AWS GB300 架构中，AEC 被用来连接 1U 计算托盘和 2U 网卡侧车（JBOK），让 GPU 能通过 PCIe 信号直连自研 K2v6 网卡，既节省空间，又保持高性能。

AEC 与 A 股上市公司

目前 A 股尚无公司直接以“AEC 有源铜缆”作为核心产品大规模量产，但以下几类企业正在布局或受益于该技术趋势：

1. 高速连接器与线缆厂商
- 鼎通科技（688668）：深耕高速背板连接器，产品用于服务器、AI 加速卡，具备向 AEC 延伸的技术基础。
- 意华股份（002897）：生产高速连接器及组件，客户包括华为、中兴、部分云厂商，正拓展 800G 互连方案。
- 沃尔核材（002130）：旗下子公司乐庭电线布局高速数据线缆，已开发 400G/800G DAC（含 AEC）样品。

2. 光模块/高速互连综合方案商
- 中际旭创（300308）：虽主攻光模块，但已布局铜缆互连生态，可能通过并购或合作切入 AEC。
- 新易盛（300502）、天孚通信（300394）：聚焦光器件，但密切关注铜缆在短距场景对光模块的替代趋势。

3. 芯片与信号调理配套
AEC 的核心在于内置的 Retimer（重定时器）或 Redriver（信号增强器）芯片，这方面国内仍依赖进口（如 Marvell、Broadcom、Semtech）。但以下公司正在追赶：
- 裕太微（688515）：国产高速 PHY 芯片厂商，产品覆盖车载、企业网，未来或拓展数据中心 Retimer。
- 创发科技（未上市）、云豹智能（未上市）：部分初创企业布局 PCIe/CXL Retimer，但尚未规模商用。

投资逻辑与风险提示

- 机会：随着 AI 集群密度提升（如 GB300、NVL72），机柜内短距高速互连需求暴增，AEC 因低成本、低延迟优势，有望在 2 米内场景替代光模块，市场空间快速打开。
- 风险：A 股公司目前多处于“技术储备”或“小批量送样”阶段，尚未形成明确营收贡献；且高端 Retimer 芯片仍被海外垄断，国产化率低。

总结

AEC（有源铜缆）是 AI 数据中心关键互连技术之一，在 AWS 等超大规模云厂商推动下加速落地。A 股暂无纯正标的，但鼎通科技、意华股份、沃尔核材等连接器/线缆企业具备潜在切入能力，可关注其 800G DAC/AEC 产品进展。长期看，若国产 Retimer 芯片突破，将打开更大想象空间。

亚马逊云自研EFA网卡+AEC，摆脱显卡出身英伟达章鱼爪！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道