Etched集群规模内存CSM解析：铜缆如何解决AI芯片延迟死穴

#AI基础设施 #芯片半导体

2026-07-02 3K banq

内存太远AI卡成PPT？这家公司用一堆黑电缆暴力拉平延迟！

内存太远，专家太慢，AI芯片被困在HBM和SRAM的死胡同里。Etched用一把铜缆把整个集群的内存强行拉平，让MoE模型的专家路由快到像在芯片内部串门，代价是制造一场连接器的噩梦。

芯片界的租房困境：你永远住不到市中心

你玩过那种超大型多人在线游戏吗？地图上有一百个职业，你每次放技能都得先找到对应职业的师傅，师傅还住在不同城市。你得先传送到主城，再坐马车到郊区，最后步行进村。等你到了，BOSS早跑了。这就是大型MoE模型跑在现有AI芯片上的真实写照。

现在的AI芯片，最顶级的是用HBM（高带宽内存，一种堆叠起来的DRAM，就像把好几层公寓摞在一起）。问题是HBM离计算核心有点远，中间隔着各种线路和交换机。这就好比你想从小区门口买瓶酱油，得先走过三条马路，穿过两个红绿灯，再绕过一个菜市场。

更快的选择是SRAM（静态随机存取存储器，就是芯片内部自带的小仓库）。它就在计算核心隔壁，速度飞快，但容量小得可怜，跟便利店差不多。你跑个超大规模模型，需要几百GB内存，SRAM那点几十MB的空间连模型的一根汗毛都塞不下。

所以你被迫做一道送命题。要么用HBM慢悠悠地跑，等专家路由数据从内存深处游过来，延迟高得能让你喝三杯茶。要么用SRAM但只能一次处理一小批数据，这样吞吐量直接腰斩，成本翻倍上涨。这就像你要么住郊区大房子但每天通勤三小时，要么住市中心胶囊公寓但转身都困难。

MoE专家路由：一场跨城快递的灾难

MoE模型全名叫混合专家模型。你可以把它想象成一个超级咨询公司，来了一个问题，前台得判断该找财务专家、法务专家还是技术专家。这个判断过程就叫路由。问题在于，这些专家分别存放在不同的芯片和不同的内存层里。

当你的问题来了，路由指令需要穿过芯片内部的SRAM，再跑到芯片外的HBM，然后经过主板上的PCB走线，再穿过交换机，最后到达目标芯片。每一层都像一道收费站，每经过一道，延迟就往上涨一截。

PCB走线是印刷在电路板上的铜箔线路。这玩意儿在低速时挺好用，但到了超高速传输，它就变成了一个麻烦制造者。信号会在线路里反弹、衰减，就像你在一条坑坑洼洼的老马路上飙车，车速越快，颠簸越狠，最后不得不踩刹车。

而且传统的数据中心架构，柜子内部用铜缆，柜子之间用光模块转光纤。光确实跑得快，但每次从电信号转成光信号，再转回电信号，这个光电转换过程本身就要消耗时间和能量，相当于你每次过省界都要停下来换轮胎。

既然中间商太黑，那就掀桌子

Etched这家公司干了一件特别粗暴的事情。他们说，既然每一层内存都增加延迟，那最好的内存层就是没有内存层。他们设计了一种新架构，在整个纵向扩展域里，搞了一个共享的低延迟内存池。

什么叫纵向扩展域？简单说就是把这一个机柜或者相邻的几个机柜里的所有芯片，用极快的线路全部连在一起，假装它们是一个超级大芯片。在这个域里，任何芯片都可以直接访问任何其他芯片的内存，不需要经过层层转发。

他们用的办法，就是图片里那密密麻麻的黑色电缆。这不是普通铜缆，是专有的超低延迟高带宽电气互连。在短距离内，铜缆比光纤更划算。为啥？因为铜缆不需要光电转换，延迟更低，功耗更可控，而且铜的制造工艺成熟，成本远低于光学器件和集成光学方案。

这些电缆用的是双轴结构，里面有更好的介电材料和导体，损耗极小，串扰（就是信号互相干扰）也控制得很好。相比之下，PCB走线在高速下会变成信号杀手，过孔、拐角、层间切换都会让信号变形。所以电缆直接飞过去，比在电路板里绕来绕去快得多。

这就好比你在市中心和郊区之间直接拉了一条磁悬浮专线，而不是让大家坐公交转地铁再步行。距离没变，但时间缩短了一个数量级。

别误会，这不是把HBM芯片用铜线捆起来

有人可能会说，你这不就是用电缆把一堆HBM芯片封装在一起嘛，跟之前柜内铜缆有啥区别？区别大了去了。传统柜内铜缆只是负责把同一个机柜里的设备连起来，柜子之间还得靠光模块转光纤，而且内存访问还是要经过层层交换机和路由协议。

Etched的集群规模内存（CSM）是架构级的池化。它不只是连接，而是把多个芯片的HBM和SRAM融合成一个扁平的低延迟共享池。在MoE模型路由专家的时候，数据不需要从HBM爬到SRAM再爬到交换机，而是可以直接通过这个共享池瞬间到达目标专家。

他们明确避开了光学方案。因为在这种短距离、超低延迟的场景下，电气互连反而是王者。光模块有电光转换开销，有热管理问题，集成复杂度高，成本还贵。而铜基方案在这些方面全面占优，配合低压推理（LVI）技术，进一步压低功耗和散热压力。

低压推理就是让芯片在略低于标准电压下运行。这听起来有点反直觉，降电压不会降性能吗？但Etched通过架构优化，在保持性能的同时把功耗压下来，这样散热成本降低，机柜里能塞更多芯片，整体性价比反而上去了。

伟大的计划背后，是连接器的十八层地狱

现在讲那个最大的冷笑话。他们想批量生产这种系统，需要多少电缆？想象一下，一个机柜里几十个芯片，两两之间都需要高速互连，而且每条链路都得保证信号完整性。这需要的电缆数量，足以让任何一个工厂经理当场昏倒。

每根电缆都得精密制造，屏蔽层、接地、阻抗匹配，稍微偏差一点，高速信号就变成一堆乱码。连接器更是噩梦，几百个甚至上千个高密度接口，每个都得完美接触，而且要在数据中心的热胀冷缩环境下保持可靠性。这就像你要给一座城市里所有房子都接上独立的磁悬浮轨道，而且每根轨道都不能有丝毫偏差。

更搞笑的是，这堆电缆本身就是个散热噩梦。密密麻麻的线缆堵在风道上，空气流通都成问题。但Etched说我们搭配LVI和热管理方案能解决。好吧，我信了，毕竟他们已经有大量客户合同在手，证明这条路在经济上站得住脚。

华丰科技这种供应商是造连接器和线缆组件的，提供224G背板什么的。Etched则是在芯片架构、互连协议和系统层面做端到端设计。一个卖硬件零件，一个搞系统集成创新。技术方向有重叠，但Etched明显在下一盘更大的棋。

说到底，这是一场豪赌

铜缆集群池化内存，听起来是个漂亮的架构级创新。它解决了延迟和吞吐量的死结，让大MoE模型跑得飞快又不用烧光预算。但它带来了制造噩梦、散热挑战和工程天量的麻烦。

可这世界上所有的好方案，不都是用一个麻烦换另一个更值得的麻烦吗？Etched赌的是，AI推理的低延迟需求如此饥渴，市场愿意为那几十毫秒的提速支付巨大代价。而他们用成熟的铜互连和聪明的池化架构，赌自己能比光互连、3D DRAM和纯SRAM方案跑得更快、更便宜、更可靠。

最后，如果那堆黑色电缆有一天在数据中心里集体罢工，请记住这个冷笑话：最好的内存层是没有内存层，但最好的电缆层，可能会变成最贵的耗材层。

总结

铜缆比光纤在短距场景更优，颠覆了“光一定比电快”的直觉；但批量制造精密互连系统的复杂度，又把一个优雅架构拉回残酷的工程现实。

作者单位背景
Etched公司，AI推理芯片与系统架构设计团队