算力炸裂,机架内通信依然铜天下!光纤连机架,塑料管请等下一波

芯片算力继续暴涨,真正卡住系统上限的环节逐渐从计算单元转移到芯片互联。铜线跑得快但距离短,光互联跑得远但价格高,一种把射频送进光纤的新路线,正在试图撕开中间地带,重塑机架级与数据中心级的连接方式。

芯片之间的"高速公路"要升级了:铜线快不够用了!

当你把很多GPU和AI加速器堆在一起时,真正决定系统规模上限的因素,逐渐从“芯片有多快”变成“芯片之间怎么连”。
铜线已经把速度推到极限区间,光互联站在远距离高带宽的高地,中间地带出现一种用射频跑在光纤里的新方案,目标直指成本、距离和功耗之间的平衡点。



先搞懂背景:芯片连接分两种玩法

现在半导体行业有个特别重要的问题:怎么把一堆芯片连起来干活。主要分两派:

第一派叫"拼成一个大脑"(Scale Up:规模内):就是让好几块GPU或者AI芯片像连体婴儿一样,共享内存,变成一个超级大脑一起思考(垂直扩展)。
第二派叫"组队打怪"(Scale Out:规模外):就是把好多台装满芯片的服务器连起来,让它们协同作战(水平扩展)。

区别在于:第一种是"几乎共用同一个内存空间",第二种就是"数据中心里一堆独立的芯片各自为政"。

今天,无论你玩规模内还是规模外,现实里大量系统依然压在铜线上跑。
板内走线、背板连接、高速线缆,统统离不开铜。
速度一路从百兆推到几百Gbps,历史已经证明铜线一次次打脸“速度上限”的预言。

问题在于,速度越高,能跑的距离越短,这条物理规律开始露出獠牙。



现在的状况:铜线快撑不住了


不管是哪种玩法,现在基本全靠铜线来传数据。我得稍微修正一下这个说法——但确实,现在800Gbps(每秒8000亿比特)的铜线已经到处都在用了。

像NVLink这些连接标准,全是走铜线:要么是在电路板上的铜走线,要么是在背板上的铜连接。数据传输速度已经飙到每秒好几GB了。以前有人觉得铜线超不过100MB/s,结果被打脸了——铜线技术一直在进步。

但铜线有个致命弱点:速度越快,能传的距离就越短。
这就是为什么你能买到1公里长的千兆网线,但英伟达那个巨大的NVL72机架里,铜线最多只能传2米。而且从800G到1.6T、3.2T,这个距离还在越来越短。

你可以用一根一公里的千兆以太网线轻松联网,因为速度要求低,信号衰减压力小。当速度冲到800G、1.6T甚至3.2T时,铜线的有效距离直接缩水到两米级别。现实里的大型GPU机架,线缆有效范围就在这个量级。

这就很尴尬了,因为老黄(英伟达CEO黄仁勋)对铜线有三个评价:便宜、靠谱、还是便宜。

速度提升带来的代价极其直接:信号频率越高,铜里的损耗越凶,距离就越短。于是机架的物理形态开始被线缆反向设计。为了把所有高速连接控制在两米内,机架开始变宽,甚至变成“双倍宽度”,整个结构围绕“铜线能活下来”的半径展开。

像NVL72这种"整机架级别"的AI系统,你得重新定义什么叫"机架"。不是那种标准的19-21英寸宽、42-52-58U高的普通机架了。看AMD的Helios设计,可能要变成双宽机架——这样就能把所有2米长的连接线塞进一个大概2米见方的空间里。(我知道对角线会长一点,但差不多就这意思。)

核心逻辑:铜线用得越久,成本就越低。至于数据中心里铜线有多重……咱们就先不提这茬了。
更搞笑的是,这么多铜线堆在一起,重量能达到好几吨!搬个机柜简直是在搬一座铜山,电费没花多少,运费先爆表了。

当你看到算力系统越做越像重工业设备,原因就在这里。
(据说2027年开始铜的超级周期到来,类似云南铜业这样股价股价会超过历史新高!涨完内存条,就开始涨铜资源,铜矿山现在比较稀缺!)



另一极端:光纤(光学连接)

现在数据中心里,光纤已经在用了——比如机架顶部的交换机,用的就是光模块。就是那种一头把电信号转成光信号、另一头再转回来的线缆。交换机才不管你是不是用光纤,它只认数据进、数据出。

我们正在进入共封装光学(CPO:co-packaged optics)的时代。不管你觉得英伟达和博通出的交换机算不算真正的"共封装",还是只是"板载光学"。但像IR Labs、Celestial、Light Matter这些公司已经展示过了:如果把光学芯片直接做到AI加速器里面,芯片之间的连接会更好——带宽更高、延迟更低、还能跨整个数据中心传输,铜线根本做不到这些。

光的优势极其明确:距离长、带宽高、单位比特功耗有下降潜力。当光模块与芯片靠得足够近,甚至直接封装在一起,芯片到芯片的连接范围可以扩展到整个数据中心。铜线在这里彻底退场。

这就是光学"组队打怪"(Scale Out)的思路。
共封装光学成为热门方向。
一些方案把光学芯粒直接放进AI加速器里,让数据一出生就以光速跑路。带宽上限、延迟表现、跨机架能力全部拉满。

代价同样清晰:成本高、工程复杂度爆表、封装良率与散热挑战齐飞。
从激光器、调制器到探测器,一整套光学器件的成本,能把普通工程师吓得连夜改行去卖烤红薯。
而且,光学系统的功耗和集成复杂度也是个大坑,目前还处在“实验室很美,量产很痛”的阶段。所以,光纤虽好,却像一辆顶级超跑,性能无敌,但油钱和保养费能让99%的人望而却步。

光互联已经到场,位置却站在成本高地
光很强,光也贵。
光纤:千里眼顺风耳,可惜身价太高,普通人用不起!



中间地带出现新想法:射频跑进光纤

最近有家公司找上门来,想做点中间路线的东西——不像铜线那样只能传2米,也不像光学那么贵。这家公司名字特别怪,叫Point 2 Technologies(点二科技?)。

我收到一封陌生邮件:"嘿,我们在干这个,要不要聊聊?"于是我就跟他们开了个会,看了他们的白皮书。现在我来给你们捋一捋,看看这玩意儿靠不靠谱。

他们干了一件让所有人都瞪大眼睛的事:不用电,也不用光,而是把你的手机信号——也就是无线电波(RF)——塞进一根普通的塑料光纤里!
他们管这个技术叫EUB:用光纤当“管道”,在里面传输射频信号。
听起来像是把手机信号塞进透明塑料里狂奔。

他们的办法是,先用一个特制的芯片,把芯片之间原本的电信号,转换成毫米波频段的无线电信号(比如99GHz和176GHz),然后把这个信号“发射”进一根塑料管里。这根塑料管外面包了一层薄薄的金属,既能防止信号泄露,又能把好多根管子捆在一起,轻松实现带宽翻倍。
到了另一头,再用一个接收芯片把无线电信号变回电信号。

整个过程,就像是给两个芯片配了一对私人对讲机,只不过通话的“空气”被换成了塑料管。



技术原理:用光纤传"手机信号"

芯片连接技术可以看成一条光谱:

左边:高速铜线,距离短(2米)、成本低、功耗相对高
右边:光学,带宽高、成本高、但每比特功耗低(至少目标是等完全集成、几代产品之后)
中间:Point 2想站的位置

他们用光纤,但不是传光,而是传无线电波(RF)!

我听到这儿的时候,后脖颈子都竖起来了:"等等,啥?你们把手机信号塞光纤里传?"
他们说:"对啊。"
我:???

他们的方案分阶段:
第一阶段:做线缆
他们设计了一种标准的"芯片到芯片"收发器线缆。里面先把电信号转成别的格式,穿过线缆,到另一头再转回来。

老黄说现在高速线缆里,这种转换要花30瓦——就一根线!

Point 2说他们有种芯片,也有基础设施来造模块(或者授权给别人造),能把电信号转成射频信号(RF)。这个RF信号走普通光纤——他们说你去家得宝(美国建材超市)都能买到的那种便宜货——到另一头再转回来。

他们的卖点:
- 比铜线贵一点(毕竟转换介质不同,规模经济也不一样)
- 但线缆本身便宜,抗噪声设计也便宜
- 能传7-10米,打破铜线2米的限制
- 能支持1.6T、3.2T的速率
- 可能达不到光学最终能到的带宽(10年20年后那种),但做个"中间选项"够用了

缺点:这只是"线缆插收发器"的方案,虽然功耗预算有空间(不像共封装光学那样要从计算芯片里抢功耗),但还是要额外耗电。

未来路线图:他们也想做共封装光学那套。



技术细节:E tube(电子管?)是什么鬼

EUB的三大绝活:跑得远、吃得少、身子轻!

那么,这个听起来像科幻小说的EUB,到底有啥真本事?

第一,它能跑得更远。官方说,现在能做到7到10米,轻轻松松打破了铜线2米的“死亡圈”。这意味着未来的AI机柜再也不用设计得那么憋屈,工程师们可以大大方方地布局,不用再算计着每一厘米的距离。

第二,它吃得少。NVIDIA说过,高速铜缆的信号转换功耗能高达30瓦,而EUB声称自己只要10瓦左右,省下的电够你多开几台游戏主机了。

第三,也是最意想不到的一点:它身子轻!铜缆为了跑高速,必须做得又粗又重,里面还得塞放大器(retimer)。而EUB的塑料管细得像意大利面,重量几乎可以忽略不计。想想看,一个大型数据中心里,如果能把几吨重的铜缆换成几公斤重的塑料管,光是省下的结构支撑和运输成本,就是一笔巨款。更别说,它的误码率(bit error rate)做到了10的负10次方,也就是每传100亿个比特才可能错一个,可靠性杠杠的。


核心定义:EUB是一种互联技术,用毫米波RF(就是你手机里的那种无线电频率)通过塑料介质芯来收发信号。注意,不是玻璃光纤,是塑料光纤——一种对无线电波透明的塑料。

他们在塑料芯外面包一层薄金属,防止串扰,这样可以把多根线缆捆在一起增加带宽。
他们做的芯片把信号转成更高频段的毫米波,然后通过芯片上的微带线到波导过渡结构,发射进EUB芯里。收发芯片通过线缆连接,还能拐90度弯(这很重要)。

最终目标是支持100G、200G、未来400G serdes(串行解串器)。白皮书里写7米,但这白皮书是两年前写的,现在他们说能到10米全速,没问题。

具体怎么工作:
他们芯片内部是224G的连接。把数据分成两个频率:99GHz和176GHz——这就是两个112G通道穿过线缆。接收端再做反向转换,数据就出来了。
用的是PAM4信号(四电平脉冲幅度调制,简单说就是一次传2比特,比传统NRZ快一倍)。
他们有个"芯片到纤芯连接器"的图。原理跟智能手机一样:RF在芯片上直接生成,不需要功率放大器,也不需要像传统波导那样的调谐器——设计简单多了,只需要锁相环(PLL)这些东西 timing 对就行。



性能数据:省功耗、轻重量、低延迟

数据方面:老黄说30瓦一根线太贵了,光学能降低功耗就好。Point 2说他们能做到10瓦一根线,传7-10米,延迟大概4纳秒/米。
所以10米的话就是40纳秒加上他们说100皮秒(0.1纳秒)的额外延迟——对于800G的线缆,总延迟大概40.2纳秒(最长线缆),短的话更少。

跟铜线和光学比,延迟应该差不多。

有个意想不到的好处:重量轻
听起来奇怪,但这真的很重要——如果你跟部署大型铜线系统的人聊过就知道。铜线很重!

如果你要用很多线,比如那种有源电缆(AEC,线缆里有retimer芯片能传超过2米,这里说3米),那线必须很粗。一堆铜线好几吨重,这也是成本。
Point 2说他们的E tube线缆比同规格的铜线细多了。

他们甚至有眼图(信号质量测试图)展示112G PAM4连接的效果。还有误码率10^-10(每100亿比特错1比特,或者1万亿?我数学不好,反正很低的错误率)。这是上限不是平均值。

这种塑料纤维甚至不追求昂贵材料,目标是廉价、可量产、易布线。支持直角转弯这一点,对机架级布线极其友好。



未来扩展性

毕竟是第一代产品,刚走出隐身模式。他们说同一根线缆能支持448G,用两个频段(130GHz和260GHz高低频段),以后还能更高。

有个表格展示他们的特性和扩展性。
还有收发器模块的图——插进去就行,普通线缆。适合交换机用,也适合芯片直连。
他们对比了:无源铜线(DAC)、有源铜线(AEC)、有源光缆(AOC)内部长什么样。显然比无源铜线贵,但比有源光缆和有源铜线便宜。
数据看看就好,带点怀疑精神——可能是基于大规模量产成本和大规模功耗的预测。他们说跟铜线比……其实如果是收发器形式,应该是直接替换的。

这白皮书差不多是2024年的(快两年了),但他们定位是:现在就能替换所有交换机到交换机的连接,或者所有需要收发器的场景。



更远未来:共封装RF

未来做板载或封装内的EU RF(或者叫别的名字)应该还有段时间。他们可能会遇到跟英伟达、IR Labs这些公司一样的问题:把共封装光学和RF捆在一起,信号干扰怎么办?
想象一下,芯片旁边或者共封装一个RF芯片,在这些超高频段下,对主芯片的信号会有什么影响?可能会很有趣,等着看吧。



商业模式:只想收专利费,不想搬砖

我跟Point 2聊的时候,明显感觉他们不想自己制造,只想授权技术。这跟IR Labs那种"我要造芯片、卖芯片、找合作伙伴"的路子不一样。

Point 2想找合作伙伴来造线缆、造收发器,自己坐在高利润的业务里,让别人去承担风险。

下次光学大会(比如OFC,光纤通信大会)应该能看到他们更多消息。我 filming 这期的时候应该是Hot Interconnects那周,但他们可能不参加——毕竟现在更偏向"组队打怪"(Scale Out)而不是"拼成一个大脑"(Scale Up)。

9月有AI基础设施峰会(等这视频发出来可能已经过了),还有一堆LE会议。明年OFC我应该会去,找他们看看路线图到哪了。

这也意味着我得把这家公司加到AI硬件节目的待录列表里,有意思。



总结:这事重要吗?

说实话,从2米变成7米,能替代老黄说的"便宜、靠谱、便宜"吗?
我觉得关键看到底有多便宜,以及7-10米的可靠性是不是真的有意义。得先在实验室看到实物,再看到大规模部署,才能下结论。



极客一语道破

说了半天,还是铜是不可替代的,是机架内通讯主要材料,机架之间当然用成熟光纤。因为你都发展到要多个机架互联了,也不想在软件上优化MoE派发,无状态负载平衡啥的,那说明你不差钱,不差钱首选光纤没有毛病,其他塑料管啥的,等下一波新浪潮吧,说不定在太空数据中心有用。

最后,算力拉爆了内存,现在拉爆了铜,机架内没有便宜的可替代方案,除非铜不再便宜,成为黄金第二,到时其他方案才胜出。