亚马逊自研“行级液冷”颠覆AI基建逻辑,从芯片封装开始重新思考散

亚马逊自研In-Row Heat Exchanger(IRHX)行级液冷系统,无需新建数据中心即可实现芯片级高效散热,2026年将支撑其超20%的AI算力,水耗降低9%、能效提升20%。


当AI浪潮撞上数据中心天花板,全球云厂商集体陷入同一道困局:  芯片必须挨得足够近,才能高速交换数据,但靠得越近,发热量就越恐怖;  传统风冷早已力不从心,液冷虽是解药,但新建液冷机房周期长、成本高、部署慢;  

等得起吗?客户等不起,市场更等不起。这是一场算力与散热之间的极限拉扯。

在这个人人都在喊“液冷是未来”的时代,真正的问题从来不是“要不要液冷”,而是“怎么在不拆掉现有风冷机房的前提下,快速把液冷塞进去”?  
亚马逊给出的答案,既不是赌注新建,也不是照搬市面方案,而是——自己造一套。  
他们没等,没靠,没抄,直接从零开始,搞出了一套名为“行级热交换器”(In-Row Heat Exchanger,简称IRHX)的系统,  
一举打通了风冷与液冷混布的任督二脉,让老旧机房也能跑最前沿的AI大模型。

想象一下你家里只有一间朝南的房间特别热,其他房间都凉快,  你是给整栋楼装中央空调,还是只给那间房装一台高效空调?  显然,后者更聪明、更经济、更灵活。  
亚马逊要的,就是这种“精准制冷”——只对最热的芯片区域液冷,其余部分仍用风冷,  在同一个数据中心里,空气冷与液体冷和谐共处,互不干扰,还能自由切换。

但市场上的现成方案根本做不到这一点。  
要么是整栋液冷机房,动辄数亿美元投资,建设周期两到三年;  
要么是某些“贴片式”液冷模块,散热能力有限,无法支撑千卡级AI训练集群;  

更关键的是,这些方案无法快速部署到全球120个可用区、38个大区的既有设施中。  
对亚马逊来说,这等于把客户晾在一边干等,这不是他们的风格。

于是,他们干了一件只有巨头才敢干的事:从芯片封装开始重新思考散热逻辑。  

IRHX的核心,是一种“直触芯片”的冷板设计——在GPU或AI加速器上方,  直接压上一块密封的金属冷板,内部走高导热液体,形成封闭循环回路。  热量从芯片表面传导到冷板,被液体瞬间带走,全程不接触外部空气,也不额外用水。  

这看似简单,但工程难度极高:冷板必须极致平整,热阻要压到毫瓦级,  接口要耐高压、抗腐蚀,还要适配不同厂商芯片的尺寸与热分布。

更绝的是,这套系统不是为单一机房定制的“艺术品”,而是可批量复制的“工业品”。  亚马逊的工程师们硬是把它做成了标准化模块,  能像搭积木一样快速嵌入现有风冷机柜排之间,无需改动建筑结构、电力系统或消防方案。  

这意味着,从旧金山到法兰克福,从东京到孟买,  只要机房有空间,三个月内就能上线液冷AI算力。

截至2025年,亚马逊的机器学习算力已进入“多吉瓦”(multi-gigawatt)量级——  这是什么概念?相当于同时点亮30座中型城市的全部用电负荷。  而到了2026年,其中超过20%的算力将由这套IRHX液冷系统承载。  别小看这20%,它背后是数万张H100、B200乃至下一代Blackwell Ultra芯片的持续满载运行;  是每天数万次的大模型训练任务;是客户对推理延迟毫秒级的苛刻要求。

而IRHX带来的不只是“能用”,更是“好用”:实测数据显示,相比纯风冷数据中心,IRHX系统的整体水耗反而降低了9%。  
你没看错——液冷比风冷更省水。 这是因为传统风冷依赖大规模冷却塔蒸发散热,而IRHX采用封闭回路,  仅需少量补充水,且可与间接蒸发冷却或干冷器耦合,实现“近零水耗”运行。

在能效方面,IRHX比市面上通用型液冷方案提升20%以上:这20%不是理论值,而是PUE(电源使用效率)实测数据。  要知道,在吉瓦级数据中心里,PUE每降低0.01,一年就能省下数千万美元电费。  20%的能效跃升,意味着同样一兆瓦电力,能多跑约25%的AI计算任务,  这直接转化为客户的成本优势和亚马逊的利润空间。

更重要的是,IRHX不是一次性技术秀,而是长期战略支点。  因为是自研系统,亚马逊掌握了从冷板材料、流道设计、泵控算法到监控API的全栈知识产权。  未来无论是升级到相变冷却、浸没式液冷,还是集成AI驱动的动态调温策略,  都可以基于IRHX架构平滑演进,无需推倒重来。

这种“可进化”的基础设施思维,正是亚马逊过去二十年领跑云计算的关键。  从全球第一个公有云EC2,到自研ARM芯片Graviton,再到如今的IRHX液冷系统,  
他们始终相信:真正的护城河,不在财报数字里,而在机房地板下、芯片封装中、冷却管道内。

而这场液冷革命的意义,远不止于技术本身。  它标志着数据中心设计范式的根本转变——从“统一冷却”走向“按需冷却”,  从“设施驱动”转向“负载驱动”。  

未来的AI数据中心,不再是千篇一律的“冷盒子”,而是像人体一样,  哪里热就给哪里供血,哪里算力密集就精准制冷,实现热管理的“个性化医疗”。

当然,这条路并不容易。  
冷板与芯片之间的热界面材料(TIM)必须每半年更换一次,否则导热性能衰减;  液体泵的噪音与振动必须控制在极低水平,以免干扰硬盘读写;  不同厂商的AI芯片热密度差异巨大,H100与MI300X的散热需求天差地别,  IRHX必须具备极强的兼容性与自适应能力。

但亚马逊已经跑通了全链路验证。  
他们在多个区域部署了混合机柜:前排是液冷AI训练集群,后排是风冷通用服务器,  中间仅隔一块隔热板,电力、网络、监控系统完全共享。  
这种“液风混布”模式,极大提升了机房空间利用率,  也让客户能根据业务阶段灵活选择——训练用液冷,推理用风冷,无缝切换。

放眼全球,谷歌、微软、Meta也在加速液冷布局,但路径各不相同。  
谷歌押注浸没式冷却,微软倾向冷板+间接液冷,Meta则在测试两相流系统。  
而亚马逊选择了一条更务实的路:不追求极致PUE,而是追求“快速部署+平滑过渡”。  

因为他们知道,AI军备竞赛的胜负,不只看谁的芯片更强,更看谁的基建更快。



IRHX的成功,也再次验证了一个底层逻辑:  在AI时代,硬件创新不再只是芯片公司的专利,云厂商正成为系统级创新的主导者。  NVIDIA提供算力引擎,但如何让这台引擎在高温高湿高负载下持续轰鸣,  靠的是亚马逊、阿里、Azure这些“算力地基建筑师”。

值得一提的是,这套系统对A股投资者也有重要启示。  
中国液冷产业链正迎来爆发期,从冷板铝材(如银轮股份)、液冷泵(如汉钟精机),  到冷却液(如中欣氟材)、连接器(如中航光电),再到整机柜集成商(如浪潮、曙光),  整个生态正在快速成熟。  而亚马逊IRHX的落地,证明了“行级液冷”是当前最适合大规模商用的技术路径,  这将加速国内风冷数据中心向液冷演进的节奏。

回到技术本质,高效散热从来不只是“降温”问题,而是“热流管理”问题。  
AI芯片的热密度已突破1000W/cm²,相当于在指甲盖大小的面积上点着一盏白炽灯。  
传统风冷的极限约在30kW/机柜,而液冷轻松突破100kW,甚至可达200kW。  
没有液冷,千亿参数大模型的训练成本将高到无法承受,推理延迟也无法满足实时交互需求。

而IRHX的真正突破,在于它把液冷从“特种兵”变成了“常规军”。  不再局限于新建超算中心,而是能渗透到每一个现有机房的毛细血管中。  这种“轻量级革命”,比大拆大建更具破坏性,也更具商业价值。

可以预见,到2027年,全球超过30%的新建AI算力将采用某种形式的液冷,  而其中至少一半会借鉴IRHX的“行级部署+封闭回路+芯片直触”架构。  
这不是预言,而是工程必然——因为热力学定律不会妥协,芯片也不会停止发热。

亚马逊在结尾说:“我们还没做完,还有很多要为客户发明。”  
这话听着谦虚,实则霸气。  
因为他们深知,AI基础设施的竞争,才刚刚进入第二章。  
第一章是拼芯片,第二章是拼散热,第三章将是拼“热-电-算”一体化协同。

而在这场长跑中,谁能把冷却系统做得像电源一样可靠、像网络一样灵活、像软件一样可编程,  
谁就真正掌握了AI时代的“算力主权”。

所以,别只盯着H100的出货量,更要盯住那些藏在机柜背面的铜管与冷板。  
因为未来的AI霸权,不仅诞生于算法实验室,更锻造于数据中心的散热管道之中。