内存太远AI卡成PPT?这家公司用一堆黑电缆暴力拉平延迟!
内存太远,专家太慢,AI芯片被困在HBM和SRAM的死胡同里。Etched用一把铜缆把整个集群的内存强行拉平,让MoE模型的专家路由快到像在芯片内部串门,代价是制造一场连接器的噩梦。
芯片界的租房困境:你永远住不到市中心
你玩过那种超大型多人在线游戏吗?地图上有一百个职业,你每次放技能都得先找到对应职业的师傅,师傅还住在不同城市。你得先传送到主城,再坐马车到郊区,最后步行进村。等你到了,BOSS早跑了。这就是大型MoE模型跑在现有AI芯片上的真实写照。
现在的AI芯片,最顶级的是用HBM(高带宽内存,一种堆叠起来的DRAM,就像把好几层公寓摞在一起)。问题是HBM离计算核心有点远,中间隔着各种线路和交换机。这就好比你想从小区门口买瓶酱油,得先走过三条马路,穿过两个红绿灯,再绕过一个菜市场。
更快的选择是SRAM(静态随机存取存储器,就是芯片内部自带的小仓库)。它就在计算核心隔壁,速度飞快,但容量小得可怜,跟便利店差不多。你跑个超大规模模型,需要几百GB内存,SRAM那点几十MB的空间连模型的一根汗毛都塞不下。
所以你被迫做一道送命题。要么用HBM慢悠悠地跑,等专家路由数据从内存深处游过来,延迟高得能让你喝三杯茶。要么用SRAM但只能一次处理一小批数据,这样吞吐量直接腰斩,成本翻倍上涨。这就像你要么住郊区大房子但每天通勤三小时,要么住市中心胶囊公寓但转身都困难。
MoE专家路由:一场跨城快递的灾难
MoE模型全名叫混合专家模型。你可以把它想象成一个超级咨询公司,来了一个问题,前台得判断该找财务专家、法务专家还是技术专家。这个判断过程就叫路由。问题在于,这些专家分别存放在不同的芯片和不同的内存层里。
当你的问题来了,路由指令需要穿过芯片内部的SRAM,再跑到芯片外的HBM,然后经过主板上的PCB走线,再穿过交换机,最后到达目标芯片。每一层都像一道收费站,每经过一道,延迟就往上涨一截。
PCB走线是印刷在电路板上的铜箔线路。这玩意儿在低速时挺好用,但到了超高速传输,它就变成了一个麻烦制造者。信号会在线路里反弹、衰减,就像你在一条坑坑洼洼的老马路上飙车,车速越快,颠簸越狠,最后不得不踩刹车。
而且传统的数据中心架构,柜子内部用铜缆,柜子之间用光模块转光纤。光确实跑得快,但每次从电信号转成光信号,再转回电信号,这个光电转换过程本身就要消耗时间和能量,相当于你每次过省界都要停下来换轮胎。
既然中间商太黑,那就掀桌子
Etched这家公司干了一件特别粗暴的事情。他们说,既然每一层内存都增加延迟,那最好的内存层就是没有内存层。他们设计了一种新架构,在整个纵向扩展域里,搞了一个共享的低延迟内存池。
什么叫纵向扩展域?简单说就是把这一个机柜或者相邻的几个机柜里的所有芯片,用极快的线路全部连在一起,假装它们是一个超级大芯片。在这个域里,任何芯片都可以直接访问任何其他芯片的内存,不需要经过层层转发。
他们用的办法,就是图片里那密密麻麻的黑色电缆。这不是普通铜缆,是专有的超低延迟高带宽电气互连。在短距离内,铜缆比光纤更划算。为啥?因为铜缆不需要光电转换,延迟更低,功耗更可控,而且铜的制造工艺成熟,成本远低于光学器件和集成光学方案。
这些电缆用的是双轴结构,里面有更好的介电材料和导体,损耗极小,串扰(就是信号互相干扰)也控制得很好。相比之下,PCB走线在高速下会变成信号杀手,过孔、拐角、层间切换都会让信号变形。所以电缆直接飞过去,比在电路板里绕来绕去快得多。
这就好比你在市中心和郊区之间直接拉了一条磁悬浮专线,而不是让大家坐公交转地铁再步行。距离没变,但时间缩短了一个数量级。
别误会,这不是把HBM芯片用铜线捆起来
有人可能会说,你这不就是用电缆把一堆HBM芯片封装在一起嘛,跟之前柜内铜缆有啥区别?区别大了去了。传统柜内铜缆只是负责把同一个机柜里的设备连起来,柜子之间还得靠光模块转光纤,而且内存访问还是要经过层层交换机和路由协议。
Etched的集群规模内存(CSM)是架构级的池化。它不只是连接,而是把多个芯片的HBM和SRAM融合成一个扁平的低延迟共享池。在MoE模型路由专家的时候,数据不需要从HBM爬到SRAM再爬到交换机,而是可以直接通过这个共享池瞬间到达目标专家。
他们明确避开了光学方案。因为在这种短距离、超低延迟的场景下,电气互连反而是王者。光模块有电光转换开销,有热管理问题,集成复杂度高,成本还贵。而铜基方案在这些方面全面占优,配合低压推理(LVI)技术,进一步压低功耗和散热压力。
低压推理就是让芯片在略低于标准电压下运行。这听起来有点反直觉,降电压不会降性能吗?但Etched通过架构优化,在保持性能的同时把功耗压下来,这样散热成本降低,机柜里能塞更多芯片,整体性价比反而上去了。
伟大的计划背后,是连接器的十八层地狱
现在讲那个最大的冷笑话。他们想批量生产这种系统,需要多少电缆?想象一下,一个机柜里几十个芯片,两两之间都需要高速互连,而且每条链路都得保证信号完整性。这需要的电缆数量,足以让任何一个工厂经理当场昏倒。
每根电缆都得精密制造,屏蔽层、接地、阻抗匹配,稍微偏差一点,高速信号就变成一堆乱码。连接器更是噩梦,几百个甚至上千个高密度接口,每个都得完美接触,而且要在数据中心的热胀冷缩环境下保持可靠性。这就像你要给一座城市里所有房子都接上独立的磁悬浮轨道,而且每根轨道都不能有丝毫偏差。
更搞笑的是,这堆电缆本身就是个散热噩梦。密密麻麻的线缆堵在风道上,空气流通都成问题。但Etched说我们搭配LVI和热管理方案能解决。好吧,我信了,毕竟他们已经有大量客户合同在手,证明这条路在经济上站得住脚。
华丰科技这种供应商是造连接器和线缆组件的,提供224G背板什么的。Etched则是在芯片架构、互连协议和系统层面做端到端设计。一个卖硬件零件,一个搞系统集成创新。技术方向有重叠,但Etched明显在下一盘更大的棋。
说到底,这是一场豪赌
铜缆集群池化内存,听起来是个漂亮的架构级创新。它解决了延迟和吞吐量的死结,让大MoE模型跑得飞快又不用烧光预算。但它带来了制造噩梦、散热挑战和工程天量的麻烦。
可这世界上所有的好方案,不都是用一个麻烦换另一个更值得的麻烦吗?Etched赌的是,AI推理的低延迟需求如此饥渴,市场愿意为那几十毫秒的提速支付巨大代价。而他们用成熟的铜互连和聪明的池化架构,赌自己能比光互连、3D DRAM和纯SRAM方案跑得更快、更便宜、更可靠。
最后,如果那堆黑色电缆有一天在数据中心里集体罢工,请记住这个冷笑话:最好的内存层是没有内存层,但最好的电缆层,可能会变成最贵的耗材层。
总结
铜缆比光纤在短距场景更优,颠覆了“光一定比电快”的直觉;但批量制造精密互连系统的复杂度,又把一个优雅架构拉回残酷的工程现实。
作者单位背景
Etched公司,AI推理芯片与系统架构设计团队