一个真正卡住AI数据中心脖子的“隐形战场”——AI集群内部互连技术。你可能没听说过,但这场技术战,正在决定未来NVIDIA、AMD、Marvell、Broadcom这些巨头谁能在万亿瓦特级AI算力时代笑到最后。
为什么这么说?因为现在的AI集群,动不动就是上万张H100,甚至B200;每张卡之间的数据交换,就像春运高峰期全国高铁同时发车,流量爆炸,延迟必须拉满。而连接这些GPU的“血管”——高速互连电缆,正在成为整个AI基建里最脆弱的一环。
今天要讲的主角,是一家叫Point2 Technologies的硅谷创业公司,它搞出了一种用塑料管传射频信号的黑科技,名字叫e-Tube。这玩意儿真的有可能在铜缆和光模块之间,撕开一道新裂缝。
先说现状:铜缆快到极限了,光模块又太费电
现在AI数据中心里,主流互连方案还是无源铜缆(Passive Copper Cables)。这玩意儿好在哪?几乎不耗电,延迟接近零,成本低,插上就能跑。但问题是——距离短得可怜。
在50G PAM4信号速率下,铜缆还能撑3到5米;但当你把速率拉到200G PAM4——也就是现在NVLink、InfiniBand 400X用的级别——铜缆的有效传输距离直接跌破1米。啥概念?你连一个机架都跨不过去!
怎么办?工程师们搞出了主动铜缆(Active Copper Cables, ACC),在电缆两端加红驱动器和均衡器,勉强把距离拉回3米左右。但代价是每端多耗1~2瓦电,延迟加1~2纳秒。听起来不多?但一个AI机架有2英里(约3.2公里)的铜缆!光是布线就密得像蜘蛛网,维修换线时工程师恨不得哭出来。
再往上走,还有高级主动电电缆(AEC),用DSP做重定时、前向纠错(FEC)、完整时钟数据恢复(CDR)。Marvell的Alaska A重定时芯片,用5nm工艺做到单通道100G PAM4,8通道1.6Tb/s,传输距离3米。但代价呢?每端功耗10瓦,延迟飙到20~100纳秒,能效约6皮焦/比特(pJ/bit)。
这还没完。照这个趋势,到2030年前,单通道速率很可能冲到400G PAM4。到了那一步,铜缆哪怕加一堆芯片,也基本无能为力了——信号衰减太狠,连DSP都救不回来。
那换光模块不就行了?毕竟光纤能跨太平洋,区区机架内几米不是小菜一碟?
错!光模块在AI数据中心里,是“杀鸡用牛刀”。
英伟达CEO黄仁勋在2024年GTC大会上亲口吐槽:“如果用光模块,光是收发器和重定时器就得耗掉20千瓦电——就为了驱动NVLink脊柱!” 20千瓦是什么概念?差不多够一个小工厂全厂照明了。
为什么光模块这么费电?我们拆开看:一个OSFP光模块里,有外调制激光器(EML),单个就吃10瓦;再加上3nm工艺的DSP芯片(比如Broadcom的Siam3),干串并转换、数模转换、信号驱动,再加接收端的跨阻放大器——整套下来30瓦起步,能效约20 pJ/bit,是AEC的三倍以上。
而且,光模块还有延迟。虽然光纤本身延迟低,但DSP处理带来额外开销,在AI训练这种对时序极度敏感的场景里,多几十纳秒都可能拖慢收敛速度。
所以,在1~5米这个“中程距离”上,铜缆够不着,光模块又太狠——这就是所谓的“灰色地带”。而Point2的e-Tube,就是专为这个灰色地带而生的“第三条路”。
Point2是谁?背后站着Molex和富士康
Point2 Technologies,2016年在硅谷湾区成立,核心目标就一个:用混合信号SoC扩展互连距离。它不光做e-Tube,也做AEC重定时芯片,但真正让它出圈的,是那个“塑料管传信号”的e-Tube方案。
CEO叫肖恩·朴(Sean Park),前Marvell射频IC设计总监,后来还当过TeraSquare的CEO——那家公司2015年被Gigpeak收购。换句话说,这人是射频芯片老炮儿,对毫米波、高速SerDes、封装电磁学门儿清。
投资方更硬核:Molex Ventures(全球顶级连接器厂商,AI数据中心里一半铜缆插头都它家的)、博世创投(Bosch Ventures)(看中车用高速互连潜力),2024年刚领投了2260万美元B轮融资。最近,富士康旗下FIT(鸿腾精密) 也下场合作,目标直指1.6Tb/s甚至3.2Tb/s的AI集群互连。
这阵容,说明什么?说明e-Tube不是实验室玩具,而是已经进入工程化落地前夜。
e-Tube怎么工作的?毫米波+塑料波导=低损传输
2020年,Point2和韩国KAIST(韩国科学技术院)在《自然·科学报告》发了一篇开源论文,首次公开e-Tube技术细节。咱们用大白话翻译一下:
第一步:数字信号变毫米波
GPU输出的数字数据,先送进一个叫UltraWave的毫米波射频SoC(Point2自研)。这个芯片把信号调制到V波段(约70GHz),然后通过焊球输出。
第二步:射频信号进“塑料管”
射频信号从芯片出来后,经过一个微带线到波导的过渡结构,耦合进一根叫e-Tube的塑料波导管里。这根管子不是普通塑料,而是低损耗介电材料(比如聚四氟乙烯PTFE),上下两面夹着金属板,形成平行板波导。
注意!它不是2015年那种圆管状“塑料吸管”,而是2020年升级版:宽3.5毫米,厚0.6毫米,扁平轻薄,布线灵活。更重要的是,这种结构支持TEM(横电磁波)模式——没有低频截止,从直流到100GHz以上都能传,不像传统矩形波导只能当高通滤波器用。
第三步:接收端还原数字信号
信号穿过e-Tube后,在另一端通过同样的过渡结构转回微带线,送进毫米波接收SoC,解调还原成数字数据。
整个过程全模拟,无DSP,所以延迟极低(估计<5纳秒),功耗也远低于AEC或光模块。
关键优势:轻、省电、低延迟、还能插标准接口
首先,重量和体积。e-Tube只有3.5mm宽、0.6mm厚,比铜缆细得多,布线密度高,散热压力小。Meta的Catalina Pod里那些“手臂粗”的铜缆,以后可能被一排“信用卡厚度”的e-Tube取代。
其次,功耗。因为不用DSP,只用成熟的28nm甚至22nm RF CMOS工艺(比光模块用的3nm便宜多了),UltraWave SoC能效轻松做到<5 pJ/bit,甚至可能压到3 pJ/bit以下。比AEC省一半电,比光模块省80%以上。
第三,延迟。全模拟链路,没有重定时、没有FEC处理,端到端延迟预计在2~5纳秒,接近无源铜缆水平,远优于AEC(20~100ns)和光模块(10~30ns)。
第四,兼容性。Point2已经把整套方案封装成OSFP插头,叫ARC(Active RF Cable),可以直接插进现有交换机和GPU服务器,无需改动机架结构或主板设计。
别被“塑料免疫趋肤效应”忽悠了,真实损耗在哪?
网上有人说:“e-Tube用塑料,所以没趋肤效应,损耗超低!”——这是误读。
论文里明确写了:金属板的材质(铝或铜)、表面粗糙度,都直接影响损耗。因为虽然电磁场主要在塑料里传播,但金属边界仍有电流,趋肤效应依然存在,只是比实心铜线弱很多。
实测数据显示,e-Tube在50~70GHz频段的插入损耗很低(约0.3 dB/cm),但带宽似乎被卡在这个区间。为啥不能冲到100GHz以上?
真正的瓶颈,可能是那个“微带线到波导的过渡结构”。这个过渡如果设计不好,会导致模式失配、反射、辐射损耗,严重限制高频性能。这也是为什么论文里虽然理论支持TEM到100GHz,但实测只做到70GHz。
换句话说:e-Tube的天花板,不在波导本身,而在芯片与波导的接口。这恰恰是Point2的核心壁垒——他们能不能把过渡损耗压到极致,决定了e-Tube能否支撑400G甚至800G PAM4。
和CPO比,e-Tube是“轻骑兵”,CPO是“重装军团”
说到这里,你可能听过另一个热门技术:共封装光学(Co-Packaged Optics, CPO)。CPO把光引擎直接封装在GPU或交换芯片旁边,用硅光波导短距传输,再接光纤出机架。英特尔、思科、NVIDIA都在押注。
但CPO的问题是什么?太复杂、太贵、良率低、散热难。光引擎和逻辑芯片热膨胀系数不同,封装应力大;硅光波导对制造精度要求极高;而且一旦出问题,整颗芯片报废。
e-Tube呢?它走的是“分立但标准”路线:射频SoC单独封装,e-Tube是可插拔线缆。坏了换线就行,维修成本低,供应链也简单。
所以,CPO适合超大规模、超长生命周期的AI集群(比如谷歌TPU v6);而e-Tube更适合灵活部署、快速迭代的商业AI集群(比如云厂商的H100集群)。
三大方案终极对比:e-Tube、AEC、CPO谁赢?
我们拉个表,从四个维度PK:
| 指标 | 无源铜缆 | AEC | 光模块 | e-Tube | CPO | |
结论很明显:e-Tube在1~5米这个黄金距离上,完美填补了AEC和光模块之间的空白。它比AEC更省电、延迟更低;比光模块便宜得多、部署更灵活。
最后说点现实的:e-Tube要火,还得过三关
第一关:芯片量产与过渡结构优化。UltraWave SoC能不能在22nm RF CMOS上稳定量产?微带-波导过渡损耗能不能压到0.1 dB以下?这是技术生死线。
第二关:生态支持。Marvell、Broadcom、NVIDIA愿不愿意在下一代交换芯片里集成e-Tube接口?没有巨头站台,再好的技术也难上规模。
第三关:标准制定。如果e-Tube变成Point2私有协议,那永远只是小众方案。必须推动OSFP或COBO联盟纳入标准,才能成为行业基础设施。
但好消息是:富士康FIT已经下场。作为全球最大的连接器和线缆制造商,FIT的加入意味着e-Tube有望快速进入量产供应链。再加上Molex的渠道,一旦技术验证通过,2026年就可能出现在阿里云、AWS或Meta的新一代AI机架里。
结语:塑料管里,藏着AI未来的“血管革命”
别小看这根3.5毫米宽的塑料管。在AI算力军备竞赛进入“每瓦特必争”的时代,任何能省电、降延迟、减重量的技术,都是战略级武器。
e-Tube不是要取代光模块,也不是要干掉铜缆,而是在最尴尬的“中程互连”地带,杀出一条高性价比的血路。如果Point2能搞定芯片与过渡结构,它很可能成为下一代AI集群的“标配互连”。
而对我们这些关注AI基建的人来说,这又是一个提醒:真正的技术革命,往往不在芯片内部,而在连接芯片的那根“线”里。
毕竟,再强的GPU,如果“说不上话”,也是废铁一堆。