在2025年OCP全球峰会上,三位技术大牛——王旭、马迪亚·维拉辛赫(Yuvin Madhaya Weerasinghe)和杨景涵(Jinghan Jeremy Yang)——带来了一场关于AI基础设施底层革命的重磅分享。他们没有谈那些被炒得火热的光互联,而是把聚光灯打在了一个看似“老派”却正在悄然崛起的关键技术上:铜缆背板(Copper Cable Backplanes)。
你可能觉得,AI系统不都是靠光纤高速传输吗?怎么又冒出个铜缆?别急,听我慢慢道来。其实,在AI集群内部,尤其是那些需要“scale-up”——也就是把多个AI芯片紧密集成在一个高性能系统里的场景中,铜缆背板正成为一种更高效、更经济、更可靠的连接方案。
相比传统印刷电路板(PCB)上的走线,铜缆能显著降低信号损耗;而比起昂贵又耗电的光学方案,它又在功耗和成本上占尽优势。
但问题来了:既然铜缆这么香,为啥还没全面铺开?答案是——技术门槛不低。要让铜缆在AI系统里真正“扛大旗”,整个行业还得跨过三座大山。
第一座山,叫“设计与验证”。现在的AI芯片动辄跑在200Gbps甚至更高带宽下,铜缆能不能稳稳扛住?不同厂商的接口标准能不能对齐?如果没有一套通用的高性能链路设计框架和验证方法,每个公司都自己搞一套,那结果就是碎片化严重、互操作性差、试错成本高。王旭他们强调,必须建立统一的性能评估体系,让铜缆背板从“能用”走向“好用”。
第二座山,是“诊断能力”。铜缆虽然被动、结构简单,但一旦信号出问题,排查起来可不简单。尤其是在大规模AI训练集群里,成千上万条链路同时工作,怎么快速定位哪根线出了问题?这就需要内置的遥测(telemetry)机制和智能筛查工具。比如,能不能在系统运行时实时监测插入损耗、回波损耗、抖动等关键参数?能不能在出厂前就通过自动化测试筛掉潜在的“坏线”?这些诊断能力,直接决定了铜缆背板的可靠性和运维效率。
第三座山,是“产业协同”。说白了,就是别再各自为战了。芯片厂商、连接器供应商、服务器制造商、AI系统集成商……大家得坐下来,制定一套共享的验证标准和接口规范。否则,今天A厂的铜缆插不进B厂的背板,明天C厂的诊断协议D厂根本不认,那再好的技术也难落地。OCP(开放计算项目)之所以被寄予厚望,正是因为它天然具备跨厂商协作的基因。
正因如此,三位专家在演讲结尾发出明确倡议:让我们在OCP内部成立一个专门的“铜缆背板工作组”!这个工作组要干三件事:
- 第一,定义统一的设计需求,比如最大传输距离、支持速率、阻抗匹配等;
- 第二,推动标准化的验证流程,确保不同厂商的产品能无缝对接;
- 第三,开发通用的诊断工具和数据接口,让运维人员“看得见、测得准、修得快”。
这可不是纸上谈兵。王旭来自Meta的硬件基础设施团队,长期深耕AI加速器互连架构;马迪亚·维拉辛赫是英特尔的高速互连专家,在信号完整性领域有深厚积累;而杨景涵(Jeremy Yang)则是NVIDIA的系统架构师,深度参与了多代AI服务器的设计。他们的联合发声,代表了从芯片到系统、从硬件到标准的全链条共识。
更关键的是,随着AI模型越来越大,训练集群越来越密集,系统对“内部连接”的要求早已不是“能通就行”。延迟、功耗、密度、成本——每一个指标都牵一发而动全身。铜缆背板之所以被重新重视,正是因为它在这些维度上找到了一个难得的平衡点。它不像光纤那样需要光电转换、耗电又贵;也不像PCB走线那样在高频下损耗剧增。
一根精心设计的铜缆,可以在1米甚至更短距离内,以极低功耗稳定传输800Gbps的数据流——这正是AI芯片“亲密无间”协作所需要的。
当然,铜缆也有物理极限。超过一定距离,信号衰减就难以避免。所以它最适合的是机箱内、机架内的“短距高速互联”,而不是跨机房的长距离传输。但恰恰是这些“最后一米”的连接,决定了整个AI系统的效率天花板。
可以预见,未来几年,铜缆背板将不再是“备选方案”,而是AI基础设施的“标配组件”。而OCP如果真能推动成立这个工作组,很可能加速整个生态的成熟,让下一代AI系统更快、更省、更稳。