当全球AI军备竞赛烧到物理极限,一个被忽视的角落正在引爆行业大地震:数据中心里的光模块,要变天了!
你以为英伟达(NVIDIA)、博通(Broadcom)、安费诺(Analog Devices旗下?不,这里指的是Arista的ANET和Lumentum控股的LITE)这些硬件巨头拼的是GPU算力或交换芯片性能?错!真正的战场,早已从计算单元下沉到芯片与光之间的那几厘米铜线——那里,正在上演一场“DSP大清洗”。
今天咱们不聊模型参数,不谈LLM幻觉,就聊一个能让Meta、微软、谷歌集体转向、让传统光模块厂商夜不能寐的技术:共封装光学(Co-Packaged Optics, CPO)。
你可能没听过CPO,但你每天刷的AI推荐、看的短视频、训练的大模型,背后都依赖一个叫“可插拔光模块”的小玩意儿。它像USB接口一样插在交换机上,负责把电信号转成光信号,通过光纤传到另一台机器。几十年来,这套架构稳如老狗。但问题来了——当端口速率从400G冲向800G、1.6T,功耗和发热已经让这套“插拔哲学”撑不住了。
为什么?因为每个可插拔模块里,都藏着一颗“电老虎”:PAM4 DSP(数字信号处理器)。这玩意儿负责把高速电信号整形、补偿损耗,确保光模块能远距离可靠通信。听上去很牛?代价更狠——在800G时代,一个DSP的功耗动辄5瓦以上,一块交换机插几十个,光DSP就吃掉上百瓦!更别说它还占面积、拉长电通路、制造热斑。
于是,行业开始思考:能不能把DSP干掉?答案是:能,而且必须干!
第一波反击叫“线性可插拔光模块”(Linear Pluggable Optics, LPO)。简单说,就是把DSP从光模块里拿掉,让交换芯片的SerDes(串行器/解串器)直接驱动光引擎。省电?确实省。
但问题没根治——LPO还是可插拔形态,电信号依然要从芯片跑到机箱前面板,这段长距离走线在224G速率下损耗惊人,容错窗口极窄,光纤老化、连接器磨损都能导致“链路闪断”(link flap)——这在AI训练集群里可是致命伤,一次闪断可能毁掉几千GPU小时的训练进度。
真正的大招,是CPO。
CPO是什么?就是把光引擎直接“焊”到交换芯片或AI加速芯片的封装里,物理距离缩到几毫米。这样一来,电信号根本不需要走远,连长距离SerDes(LR SerDes)都可以砍掉,换成更低功耗、更短距的芯片间互连(Die-to-Die, D2D)SerDes,甚至用“随路时钟”这种极致简洁的架构。结果?每比特功耗大幅下降,芯片边沿(shoreline)密度暴增,整个系统的热设计压力骤减。
但这只是技术账。真正让CPO从“极客幻想”变成“战略必选”的,是Meta刚刚公布的实测数据——堪称行业核弹级证据。
Meta在基于博通Tomahawk 5芯片的“Bailly”CPO交换机上,累计运行了1500万端口小时(port-hours),同时用200万端口小时的传统可插拔模块作为对照组。结果令人震惊:
CPO的年链路故障率(ALFR)仅为0.34%,而可插拔模块在不同环境下高达0.94%到1.58%。这意味着CPO的可靠性提升了2.8到4.7倍!更夸张的是,CPO的平均无故障时间(MTBF)达到260万小时,而可插拔只有55万到93万小时。
但重点来了——在整个1500万端口小时的测试中,CPO系统零不可维修故障(zero unserviceable failures)。什么叫“不可维修”?就是模块坏了,你不能单独换光模块,得整台交换机下电返厂。这种故障对AI集群是灾难性的。而CPO?一次都没发生。
用统计学“三法则”保守估算,CPO的不可维修故障率上限不超过0.18%。如果按1/T简单推算,MTBF甚至可能超过1500万小时——相当于连续运行1700年才坏一次!
再算经济账。假设一个数据中心有10万端口,用传统400G FR4模块,按1.53%故障率,每年得处理1530次链路故障;换成CPO,只要340次,少1190次。如果规模扩大到100万端口,每年少处理近1.2万次故障!
每次故障意味着什么?现场工程师上门、备件库存管理、AI训练任务中断、GPU资源闲置、团队加班排查……这些隐性成本在AI集群里极其高昂。Meta的数据直白地告诉你:CPO不是技术炫技,而是真金白银的TCO(总拥有成本)杀手。
那么,CPO为什么更可靠?逻辑非常硬核。
第一,接口数量锐减。可插拔方案里,电信号要经过芯片封装、PCB走线、连接器、光模块内部焊点、光纤接口……每一步都是故障点。CPO把这些全砍了,光引擎和芯片一体化封装,接口数减少70%以上。
第二,热环境受控。激光器对温度极其敏感。可插拔模块暴露在机箱前部,气流紊乱、温差大;CPO则可与芯片协同热设计,让激光器工作在稳定温区内,寿命和性能双提升。
第三,制造级测试前置。CPO在封装阶段就能进行全系统光电联测,把早期失效(infant mortality)筛掉,避免“带病上岗”。而可插拔模块往往是独立测试,插上去才发现兼容性问题。
第四,人为干扰归零。数据中心运维人员每天插拔成百上千模块,静电(ESD)、灰尘、插错、插歪……都是隐患。CPO一旦封装完成,基本不再触碰,彻底规避人为风险。
性能上,CPO优势同样显著。去掉DSP和LR SerDes后,数据路径延迟降低——这对AI通信密集型任务(如AllReduce)至关重要。同时,芯片边沿不再被长距SerDes挤占,可以塞进更多端口,实现更高密度的AI Fabric。当行业迈向102.4T交换芯片(对应1.6T端口),CPO几乎成为唯一可行方案。因为224G电气信号在PCB上走超过几厘米就会严重衰减,可插拔架构根本扛不住。
当然,CPO不是没有挑战。
最大争议是“可服务性”(serviceability)。传统模块坏一个换一个,CPO万一光引擎坏了,是不是整块芯片报废?Meta的数据显示“零不可维修故障”,但样本仍有限,长期在高粉尘、高振动环境下的表现还需验证。此外,CPO目前缺乏通用标准,基本是平台定制,存在厂商锁定风险。博通的方案只能配博通的交换机,英伟达的GB200 NVL72也可能深度绑定自家CPO架构。
制造端也难。大尺寸芯片与光引擎共封装,对封装厂(OSAT)的良率、光纤对准精度、热应力控制提出极高要求。硅光(Silicon Photonics)和EML激光器阵列的可靠性也需持续验证。
但趋势已不可逆。对AI巨头而言,算力集群规模每18个月翻倍,功耗墙和故障率正成为瓶颈。CPO带来的可靠性、密度和能效提升,足以抵消初期服务性风险。只要建立CPO专用的备件池和更换流程(比如整板替换),运维问题可解。
投资层面,这场变局正在重塑价值链。
最大赢家:拥有CPO路线图的交换芯片厂商。博通首当其冲——Meta的测试就是基于其Tomahawk 5平台。一旦CPO在51.2T/102.4T世代普及,博通不仅能卖芯片,还能绑定整个光引擎生态,加深客户粘性。英伟达虽主攻AI计算,但其Spectrum交换芯片若跟进CPO,同样受益。Marvell、思科等若掉队,可能被边缘化。
次级赢家:硅光和激光器供应商。传统光模块厂商(如Lumentum、II-VI/Coherent)若转型做CPO光引擎,仍可分一杯羹;但若固守可插拔整机,价值将被压缩。真正吃红利的是能提供高可靠性、高密度激光阵列的企业——比如英特尔的硅光部门、台积电的COUPE平台合作方。
输家明确:纯DSP和Retimer芯片厂商。像Marvell、Semtech、Inphi(已被Marvell收购)等依赖可插拔DSP市场的公司,将面临TAM(总可寻址市场)结构性萎缩。虽然长距离DCI、城域网等场景仍需DSP,但数据中心内部(intra-DC)这个最大增量市场,正在向无DSP架构迁移。
模块组装厂也危险。像旭创(InnoLight)、光迅、新易盛等,如果只做可插拔模块组装,商业模式将受冲击。必须向前延伸到CPO光引擎设计,或与芯片厂深度绑定,否则利润空间会被系统厂商和ASIC厂商挤压。
LPO呢?它可能是过渡方案。在服务器到Top-of-Rack(ToR)这种短距、低振动场景,LPO省电又保留插拔灵活性,短期内有市场。但一旦交换机之间(spine-leaf)全面转向CPO,LPO的战略价值将快速衰减。尤其当224G电气接口普及,LPO的链路余量会越来越薄,容错能力堪忧。
对超大规模云厂商(hyperscalers)来说,决策逻辑已清晰:AI集群规模越大,CPO的边际收益越高。一次训练任务中断的成本,可能远超整套CPO系统的溢价。加上TCO优化、功耗降低、机房空间节省,转向CPO只是时间问题。
唯一变数是供应链成熟度。如果博通、台积电、英特尔能快速拉通CPO量产,2026年就可能看到102.4T CPO交换机大规模部署。若制造良率或激光可靠性出问题,LPO和改进型可插拔模块或能多活两年。
但方向不会变。AI的尽头,是物理。而物理的尽头,是集成。
当英伟达把256颗Grace Hopper芯片用CPO捆成一台GB200 Superchip,当Meta用零故障CPO构建万卡集群,传统光模块的“黄金时代”已经落幕。未来的数据中心,不再有密密麻麻的光模块插槽,而是光滑如镜的芯片表面,光与电在硅基世界无缝交融。
这不仅是技术升级,更是权力转移:从模块厂商,回归到掌握芯片与系统定义权的巨头手中。
所以,别再只盯着GPU了。下一场AI基础设施战争,胜负手藏在那几平方毫米的共封装空间里。谁先搞定CPO,谁就握住万亿AI算力的命脉。
记住:当算力密度突破临界点,插拔即原罪,集成即正义。