这场变革源于HBM全球产能危机,Google选择用光路交换技术(OCS)和类CXL协议构建三层解耦架构,将单TPU内存容量从192GB推升至768GB以上,计算效率损失控制在2%以内。首供商Lightmatter的光子封装技术将成为关键,整个方案预计2027年落地,三年内完成100%替换。
HBM产能危机逼出Google的绝地反击
全球AI军备竞赛打到白热化阶段,HBM高带宽内存成了最紧俏的战略物资。三星、SK海力士、美光三大厂产能全开,依然填不满AI训练推理的饕餮巨口。Google手握TPU v7 Ironwood这张王牌,单芯片192GB HBM3e的配置看似豪华,但供应链的脆弱性让这家搜索巨头夜不能寐。
未来两到三年,HBM产能缺口只会越撕越大,价格水涨船高,Google深知把命脉绑在别人的生产线上等于慢性自杀。一场架构级的自我革命势在必行,TPU v8将成为这场变革的试验田。
光子互连架构把内存从主板上解放出来
Google的解决方案堪称疯狂:彻底拆掉焊死在主板上的HBM,换成独立DRAM内存柜。每个柜子塞满16到32个Tray,用光子技术动态分配内存资源。
这种架构把原本单一的HBM组件拆解成三个独立层级,每一层都指向同一个目标:让内存像云计算资源一样弹性伸缩。
- 传输层采用全光互连,OCS光路交换技术配合定制CXL协议,让CPU、GPU和内存模块共享同一套通信语言。
- 存储层用大规模DRAM阵列替代HBM,单TPU对应的内存容量直接从192GB或256GB跃升至512GB甚至768GB以上。
- 控制层增设专用内存侧CPU服务器,专门负责调度这庞大的内存池。
OCS光路交换把延迟压进100纳秒俱乐部
传统以太网靠铜线传输,延迟普遍超过200纳秒,这在AI计算里简直是世纪等待。Google的OCS全光交换网络直接把延迟砍到100纳秒以下,接近HBM直连或硅光子HBM的水平。
光路交换的精髓在于用微机电系统控制镜子角度,直接把光信号从一根光纤导向另一根,无需光电转换,无需复杂协议栈,纯粹的光子高速公路。
这种技术让跨机柜通信效率逼近直接连接,为内存池化扫清了最后一道性能障碍。
Google在TPU v4时代就开始部署OCS,如今要把这项技术从芯片间互连扩展到内存池架构,经验积累足够深厚。
双层CPU架构让内存调度效率最大化
新架构引入Tier-1和Tier-2双层CPU设计:
- Tier-1 CPU坐镇TPU主板,专职处理TPU之间的互联通信,确保计算核心之间的数据流转畅通无阻。
- Tier-2 CPU部署在内存服务器一侧,专门负责协调TPU与分布式内存寻址空间的通信。
这种分工让原本复杂的协议转换变得简洁高效,Tier-2 CPU直接面向CXL-like协议优化,避免了传统CPU在PCIe信号和类CXL协议之间来回翻译的效率损耗。每块内存Tray都需要配备一颗调度CPU,性能要求不高,ARM架构完全够用,成本控制在合理范围。
光子封装接口让光信号直达芯片内部
接口层的设计更是颠覆性。
Google采用芯片级光子封装接口,类似CPO共封装光学技术,把光接口直接集成在CPU或TPU的封装内部,取代传统外置光模块。这种设计让光信号从光纤直接进入芯片,省去了层层转换的损耗。
Lightmatter作为方案设计阶段接触的首家供应商,提供 Passage 系列光子互连技术,把光学引擎和计算芯片封装在一起。后续还会有更多供应商加入,但Lightmatter的先发优势和技术积累让其成为这场光子革命的最大赢家。
计算效率损失不到百分之二的秘密
把原本超高频的主板级访问变成跨机柜访问,理论上应该带来巨大延迟和效率损失,但Google做到了损失不到2%。秘密在于传统架构里芯片之间、主机之间、环网之间存在着复杂的电光转换,这些硬件级协议转换和设置产生了大量用户看不见的隐藏开销。
采用DRAM内存池方案后,虽然引入了CXL翻译层,但砍掉了原始架构里繁琐的硬件协议转换步骤,一增一减之间反而提升了整体效率。这种以退为进的架构智慧,体现了Google在系统级优化上的深厚功底。
这就是业内著名的SuperPod方案,华为从一开始就在机架集群上做文章,不争单芯片的强弱,这是系统级别战略视野。
供应链博弈让Google铁了心走独立路线
即便未来两年三星、海力士扩产让HBM降价提量,Google也不太可能回头。核心原因在于成本考量,更在于对上游厂商的不信任。
Google判断海力士、三星、美光这些大厂不会为了迁就一两个大客户而颠覆自家主力产品线的定价策略或量产节奏。他们或许会释放一些利润空间,但绝不会配合到极致。与其受制于人,不如自建生态。
这种供应链自主的战略定力,让Google在AI基础设施竞赛中掌握了更多主动权。
看看最近英伟达黄教主在中国台湾与一众华人芯片大佬的合照,这是新时代的拉帮结伙,台积电已经从抱苹果大腿到与英伟达绑定垄断,谷歌TPU肯定需要靠创新才能走出原材料生产困局!
摆脱台积电CoWoS束缚释放芯片面积给计算核心
放弃HBM还有一个隐性红利:大幅降低对台积电CoWoS先进封装的依赖。
原本HBM芯片占据硅中介层基板上的大片面积,现在这些面积可以全部腾给TPU的计算核心。在相同物理尺寸下,Google可以打造面积更大、性能更强的TPU芯片,不再受HBM物理尺寸的束缚。
TPU v7单颗HBM容量约192GB,v8A约256GB,但通过内存池化,每颗TPU轻松实现512GB甚至768GB以上的内存容量。
这种架构弹性让Google可以根据工作负载灵活配置内存资源,再也不用为内存容量不足而焦虑。
2027年落地路线图已经清晰
整个方案的落地时间表已经明确:明年开始实施,3月5日前确定最终技术路线,初期部署比例约30%,三年内实现100%替换。
这意味着2027年将是Google AI基础设施的转折年,光子互连内存池架构将从实验室走向大规模商用。供应链各方正在紧锣密鼓地准备,Lightmatter的光子封装技术、CXL-like芯片厂商的MXC控制器、DRAM模块厂商的产能扩充、ARM CPU的调度优化、多层PCB的制造能力,整条产业链都在为这场变革蓄力。
产业链受益版图全面展开
这场架构革命将重塑AI芯片供应链格局。
OCS光引擎领域,Lightmatter作为首供商占据制高点,提供光子封装接口,把光学引擎集成在芯片封装内部取代外置模块。
CXL-like芯片领域,每颗MXC芯片售价100美元,管理两个通道对应两颗256GB内存模块,TPU侧和内存侧同步匹配,512GB配置需要两颗MXC芯片,768GB需要四颗。
DRAM模块厂商迎来容量爆发期,订单量将呈几何级增长。
CPU领域,每块内存Tray配备调度CPU,ARM架构成为首选。
PCB领域,独立DRAM柜需要大型多层PCB承载大量DIMM插槽,技术要求极高。
A股上下游概念股
产业链逻辑总结:
- CXL-like芯片是核心增量,澜起科技的MXC芯片直接对应每颗TPU需要2-4颗的用量,价值量明确。
- DRAM模组厂迎来容量爆发,江波龙、佰维存储这些企业级模组厂最受益。
- PCB领域技术要求极高,沪电股份和深南电路是AI服务器PCB双雄,内存柜PCB价值量比普通服务器更高。
- OCS光引擎领域,中际旭创、天孚通信、腾景科技是Google供应链核心,直接受益于光子互连趋势。
- ARM CPU调度芯片目前A股没有直接对标标的,全志科技、瑞芯微具备技术储备但业务重心在消费级,需观察后续拓展。