AI光子学瓶颈：AI集群可能先卡在光纤接口上

#AI基础设施 #CPO光通信 #AI投资新闻

2026-06-05 7K banq

只盯着显卡了，让它们说上话更难。光进来之后：AI工厂的真正瓶颈在哪儿？铜线跑不动了，光也有光的麻烦

以后造AI工厂，最缺的可能不是显卡，而是显卡之间怎么又快又便宜地聊天。以前大家比谁家显卡多，以后要比谁家能把数据搬得又快又省电。铜线在短距离里很香，但一到了800G、1.6T这种速度，它就变成拖后腿的了。光能把信号变成光，用光纤来跑，但光也有光的麻烦，比如激光器不够用、封装备受折磨、插光纤的接口不好修。所以真正的瓶颈不在你买了多少张显卡，而在你怎么让它们说上话。

为什么显卡再多也没用，除非它们能聊上天

造一个超大的AI集群，不是简单地把一堆显卡堆在一起。你得让它们时时刻刻都在同步数据、交换中间结果、分摊计算任务。这就好比一个几百号人的办公室，每个人脑子都很快，但电话线只有一根，大家只能排队说话，那整个办公室的效率就被那根电话线卡死了。

现在AI训练一个模型，经常要把一个任务切成无数小块，分给几百甚至几千张显卡同时算。每张显卡算完自己的那一小块，必须立刻把结果告诉其他所有显卡，大家对齐一下进度，才能接着算下一步。这个对齐的过程产生的网络流量，叫“东西向流量”。它不走外网，就在集群内部跑来跑去。

集群越大，这种内部聊天就越频繁。一开始大家觉得瓶颈是显卡算得不够快。后来发现显卡算得快了，但内存不够用，数据喂不上去。再后来内存也堆上去了，发现电费贵得吓人。现在大家慢慢摸到下一个坎了：就是显卡之间的数据通道不够宽、不够便宜、不够稳定。

铜线在低速、短距离的时候特别好用。一根铜线缆，又便宜又皮实，机房里的师傅都会换。但速度一上来，比如从100G一路干到200G、400G、800G，铜线就开始露怯了。电信号在铜线里跑，会衰减、会串扰、会发热、会被接口反射。速度越快，能跑的距离就越短。

为了让它跑得更远一点，你得加一堆补偿电路、重定时器、数字信号处理器。这些东西每加一个，就多吃一份电，多产一份热，线缆本身也越来越粗。到最后你会发现，整个网络一大半的电能，都用在“让这个电信号活着跑到对面接口”这件事情上了，而不是真正在传数据。

这时候光就上场了。光把信号变成光脉冲，在光纤里跑。光纤的损耗极低，一跑就是几百米几公里，几乎没有串扰，一根光纤里还能塞很多个不同波长的光，相当于一条路变成了好几条并行的路。代价是，你得先把电变成光，传完了再把光变回电。这个“变来变去”的过程，需要激光器、调制器、探测器、光芯片、精密对准、特殊封装。成本一下子就上去了。

所以问题不是“铜线好还是光好”。问题是，当AI集群大到一定程度，铜线那个方案的代价，已经比光的代价还要高了。到那个时候，你不用光也得用光。

光进来之后，新的麻烦长什么样

很多人以为光就是高级一点的网线，插上就能用。实际上，光是把铜线上的“电信号距离”这个麻烦，换成了另外一堆麻烦。

第一个麻烦是激光器。硅本身不发光，你得用磷化铟这种特殊材料来做激光器。磷化铟的晶圆厂本来就少，产能一直紧巴巴的。英伟达在2026年3月前后，直接跟Coherent和Lumentum各自签了几十亿美元的大单，还各投了20亿美元去扩产。这不是普通的买零件，这是在提前占坑。因为激光器一旦缺货，整个光链路都点不亮。

第二个麻烦是封装。以前用可插拔光模块，就是个U盘大小的盒子，往交换机面板上一插就行。现在为了省电、省信号损耗，大家开始搞共封装光学。就是把光引擎从面板上拆下来，直接贴到交换机芯片旁边。这样一来，芯片出来的电信号只跑几毫米就变成光了，不用横跨整块电路板。电信号损耗小了，功耗也降了。但代价是，光引擎跟芯片焊死在了一起，万一坏了，你换不了模块，得把整台交换机甚至整机架拆下来修。机房里的人会疯掉。

第三个麻烦是测试。过去一个光模块坏了，拔掉换一个新的就行，出厂前测好就行了。现在你把光引擎跟芯片封装在一起，那就得在封装之前就把光引擎测好，而且得保证它跟芯片配合也没问题。这就需要在晶圆级别就做光电联合测试、老化测试。做这种测试的设备，比如Aehr Test Systems那种探针台和老化测试机，以前市场小，没人扩产。现在突然需求量暴增，排队都排不上。

第四个麻烦是光纤连接器。光引擎挪到芯片旁边了，但光纤还是得拉到机箱外面去，跟其他的交换机、显卡连起来。这个连接口叫盲配连接器，就是你往机架里一推，光纤自动对准、自动插好，不用人拿镊子去捅。听起来简单，做起来极难。一根光纤的芯径只有几微米，要对准到亚微米的精度，还要经得起反复插拔、震动、温度变化。TE Connectivity在2026年的光通信会上展出的方案，一个背板里要走三千根光纤，还得带液冷。这个东西要是做不好，光引擎再好也白搭。

你看，光解决的问题是“电信号跑不远”，但它带来的新问题是：激光器不够、封装难修、测试排队、连接器难做。这些新问题里的每一个，都可能成为比显卡更早卡住的那块板子。

三种速度，三道坎

为了看清楚这个瓶颈到底什么时候会真正疼，我们把速度分成三档来看。

第一档是800G。这是现在AI后端网络的主力。数据中心正在大规模从400G往800G升级。一家叫Cignal AI的机构在2025年5月说过，800G光模块是当年增长最快的细分市场，整个数据中心光器件市场涨了60%以上，超过160亿美元。而且它特意补了一句：未来三年内，共封装光学不会对可插拔光模块的出货量产生实质影响。这句话很重要。说明共封装光学现在还只是前菜，主菜还是可插拔的。

第二档是1.6T。这是下一道门槛。到1.6T的时候，单路速度要跑到200G。电信号从芯片跑到面板那段路，会变得非常痛苦。英伟达已经在它的Rubin平台上展示了512路、每路200G的共封装交换机。但是2025全年，1.6T的出货量预计也就不到一百万只，集中在少数几个大客户手里。量不大，但方向已经定了。

第三档是3.2T。这是真正的压力测试。到了这个速度，可插拔方案里的电信号损耗、功耗、散热、面板密度都会同时爆炸。到那时候，把光引擎挪到芯片旁边就不再是选项，而是必须。因为再让电信号跑那段长路，光是给信号补偿消耗的电，就已经不划算了。

所以这个演进路径很清楚：800G是可插拔光模块的舒适区，1.6T开始有人试探共封装光学，3.2T共封装光学变成主流。你不需要去猜哪一年到哪一档，你只需要观察：每次速度翻倍，可插拔方案的代价是不是越来越接近甚至超过共封装方案。当那个交叉点到来的时候，光学引擎就会像潮水一样涌向芯片。

共封装光学不是要杀死可插拔模块，而是各自领一块地盘

市面上有一种简单粗暴的说法：共封装光学来了，可插拔光模块就要死了。这个说法大概率是错的。

正确的分法是：在那些要频繁换模块、要现场维修、成本敏感、生态成熟的地方，可插拔光模块会继续活着。在那些密度最高、功耗最敏感、架构最极端的地方，比如AI训练集群的核心层，共封装光学先上。

Cignal AI说的三年内没有实质性冲击，就说明了这一点。可插拔的市场太大了，供应链太成熟了，维修太方便了。你不可能为了省百分之二三十的功耗，就突然把所有面板上的模块都换成跟芯片焊死的方案。机房运维的人会提着扳手来找你。

更可能的未来是：机架内部或者机架之间短距离、超高密度的地方，用共封装光学。长距离、跨机架、需要灵活配线的地方，用可插拔光模块。还有一种中间路线叫近封装光学，就是把光引擎放在芯片封装外面但紧挨着，折中处理。还有一种叫线性可插拔光学，就是把光模块里的数字信号处理器拿掉，靠主机端的均衡来凑，也能省一点电。

所以真实的局面不是谁取代谁，而是不同方案各自啃自己最擅长的那块骨头。但无论是哪种方案，它们都共享同一批底层资源：磷化铟晶圆、激光器、硅光晶圆、光引擎封装、光纤连接器、测试设备、背板集成。这些公共的底层，才是真正的瓶颈。

真正的瓶颈不是某个技术，而是一整条供应链

很多人一听到“光子学瓶颈”，脑子里想的就是激光器不够。激光器确实重要，但它只是冰山上面那个尖。水下还藏着一大堆更不起眼、却更容易卡住的东西。

从最底下往上数：
- 最底层是衬底和外延片。磷化铟、绝缘体上硅这些特殊材料平台，全球能做的就那么几家厂。晶圆厂扩产要两三年，急也急不来。
- 往上是激光器和光源。磷化铟激光器、电吸收调制激光器、外置光源。硅本身不发光，你需要一个干净的光源才行。
- 再往上是光子集成电路。把调制器、探测器、光波导都做在芯片上，把电信号转换成光信号。
- 再往上是模块或引擎组装。把光芯片、激光器、光纤、电子芯片都塞进一个小盒子里。这个步骤看起来简单，其实是劳动密集型，而且要极高的对准精度。
- 再往上是测试和老化。在晶圆级别做光电联合测试，在封装后做老化筛选。这一步决定了共封装光学能不能从实验室走向量产。Aehr Test Systems在2026年3月接到了硅光客户的批量订单，就是干这个活的。
- 再往上是光纤连接和接口。光纤阵列单元、盲配连接器、光背板。这一步决定了光引擎在真实的机架里好不好用、好不好修。TE Connectivity展示的3000根光纤的光背板，就是针对这个环节。
- 最顶层是机架级集成。液冷机架、光背板、整机系统测试。这一步把前面所有的零件变成一个能真正部署的AI集群。

每一层都有自己独特的瓶颈。有些是材料不够，有些是设备不够，有些是工艺不够，有些是熟练工人不够。而且越往上，供应商越少。你可以找到一堆公司做光模块，但能做磷化铟外延片的就那么几家。你可以找到一堆公司做交换机，但能做光引擎批量测试设备的，全球也就两三个。

这就是为什么英伟达要同时跟激光器厂、连接器厂、测试设备厂、代工厂深度绑定。它不是在做慈善，它是怕哪一块突然断供，整个AI工厂就得停工。

藏在机架里的那个大麻烦

前面说的都是芯片、器件、封装这些很“硬”的东西。但最后真正让人头疼的，往往是机架里面那些看起来很“软”的问题。

以前用可插拔光模块，维修流程非常简单。面板上亮红灯了，拔下来，插一个新的，链路就恢复了。整个过程两分钟，手都不用洗。

现在用共封装光学，光引擎跟交换机芯片焊在一起了。如果光引擎坏了，你不能单独换它，你得把整台交换机拆下来，甚至把整个机架拉出来，送回厂里去修。这一来一回，可能就是几个小时的停机。对于正在跑一个训练任务需要连跑几个星期的AI集群来说，这几个小时意味着之前算的全白费，得从头再来。

所以业界在光引擎旁边加了很多折中的设计。比如把激光器做成可插拔的，光引擎本体焊死但光源可以换。比如用盲配连接器，让光纤可以从面板上拔下来，但光引擎还是焊死的。比如做光背板，把所有光纤的接口都集中到一个背板上，交换机插进去就自动对准。

这些设计听起来都是小细节，但每一个细节都决定了这个方案能不能真的在数据中心里用起来。TE Connectivity在2026年光通信会上展出的那一整套东西，从光纤阵列单元到盲配连接器到光背板到液冷，本质上就是在回答一个问题：你这个光引擎焊死在芯片旁边了，我怎么在机架里修它、怎么配线、怎么散热？

如果这个问题回答不好，共封装光学就永远只能待在实验室里，进不了真正的AI工厂。

怎么判断这个瓶颈是真的还是假的

一个论点要站得住脚，得先想清楚：什么情况会证明它是真的，什么情况会证明它是假的。

能证明光子学瓶颈是真的迹象，有这么几个：
- 800G光模块持续缺货，同时1.6T的订单开始往上走。
- 共封装光学最先被用在AI后端网络里，而不是普通的通用网络。
- 各家发布的下一代架构图里，光引擎都离芯片越来越近。
- 激光器供应商扩产的速度，比电信市场自己增长的速度快得多，说明AI在吃产能。
- 测试和老化设备厂商真的从光子学上收到了量产订单，不只是拿了几台样机。
- 做整机集成的公司开始频繁地聊光背板、盲配连接器、液冷环境下的光引擎维修。

反过来，如果出现下面这些情况，就说明这个瓶颈可能没想象中那么严重，或者被高估了：
- 线性可插拔光模块加上更好的主机均衡技术，让面板上的模块还能再撑两代。
- 共封装光学在现场维修或者良率上出了大问题，导致大家都不敢用。
- AI资本开支突然大跌，整个光学供应链一起过剩。
- 标准分裂得太厉害，各家搞各家的接口，没法形成规模效应。
- 硅光技术进步快到了把所有分立器件都集成进去，以至于之前那些瓶颈被绕过去了。
- 股票估值跑得比物理周期快太多，明明瓶颈还没到，价格已经反映了十年后的美好故事。

最重要的是看顺序。先有光链路数量暴增，然后器件厂开始预定产能，然后封装往芯片那边挪，然后测试问题浮出水面，最后机架可维护性变成新的抱怨焦点。这个顺序一旦被打乱，或者中间某一环迟迟动不了，那瓶颈就会从那个环节开始往外扩散。

一张简化的地图，照着走就明白了

把这个链条上的玩家按层级排出来，不是为了让你照着买，而是让你知道每一层的瓶颈大概长什么样。

最上面是看得见的平台层。英伟达、博通是铁打的玩家。思科和Arista也在推AI网络方案，但份额还在爬。

再往下是光学器件的老牌厂商。Coherent和Lumentum被英伟达用几十亿的订单和投资绑定了，这是最直接的产能信号。

再往下是硅光平台。格芯、台积电、英特尔、美满、博通都在做。有的代工，有的自己设计。

再往下是模块组装。Coherent、Fabrinet、Applied Optoelectronics、旭创、新易盛这些，手里捏着可插拔光模块的产能。

再往下是测试层。FormFactor、Aehr Test Systems、爱德万、是德科技。这一层会随着共封装光学需要批量测试而快速长大。

最下面一层是机架集成和连接器。TE Connectivity、安费诺、康宁、SENKO、Celestica、纬颖、鸿海。这一层最不起眼，但离部署最近，最容易出意想不到的幺蛾子。

再往下还有一些更小、更早期的公司，比如Sivers、POET、AXT、IQE、FOCI这些。它们有可能成为未来的瓶颈，但目前的公开信息还不够硬。把这些名字单列一档，就是为了提醒自己：不要因为没有公开财报或者公开订单，就脑补它们已经是瓶颈了。

你记住下面这几句话就行了

AI的光子学瓶颈，说到底就是：当集群大到一定程度，让显卡之间说上话这件事，比让它们算得快这件事更难。

铜线在低速短距离很香，但在800G、1.6T、3.2T这个爬坡过程里，它会越来越吃力。光把数据变成光脉冲来搬，解决了距离和损耗的问题，但它自己也会带来激光器短缺、封装难修、测试排队、连接器难做这些新麻烦。

共封装光学把光引擎挪到芯片旁边，省电、省信号损耗，但把维修难度和测试难度甩给了机房。它不会马上取代可插拔光模块，两者会在不同场景里各干各的。

真正的瓶颈不是某一个技术，而是从磷化铟晶圆、激光器、硅光芯片、封装、测试、光纤连接器到机架集成的整条供应链。哪一块最窄，哪一块就先卡住。

总结

本文分析了AI集群从计算瓶颈转向数据移动瓶颈的核心逻辑。随着网络速度从800G向1.6T和3.2T演进，铜互连在距离、功耗和信号完整性上的限制日益突出。光学互连虽然解决了电信号衰减问题，但带来了激光器产能、共封装光学封装测试、光纤连接器和机架级可维护性等新瓶颈。

文章以英伟达、博通、Coherent、Lumentum、TE Connectivity等公司的公开动作为证据，绘制了从衬底到整机集成的七层瓶颈地图，并给出了验证或推翻该论点的具体信号。

核心论点：AI集群的下一个物理约束是显卡间数据移动的成本和密度，而非算力本身。