当AI浪潮撞上数据中心天花板,全球云厂商集体陷入同一道困局: 芯片必须挨得足够近,才能高速交换数据,但靠得越近,发热量就越恐怖; 传统风冷早已力不从心,液冷虽是解药,但新建液冷机房周期长、成本高、部署慢;
等得起吗?客户等不起,市场更等不起。这是一场算力与散热之间的极限拉扯。
在这个人人都在喊“液冷是未来”的时代,真正的问题从来不是“要不要液冷”,而是“怎么在不拆掉现有风冷机房的前提下,快速把液冷塞进去”?
亚马逊给出的答案,既不是赌注新建,也不是照搬市面方案,而是——自己造一套。
他们没等,没靠,没抄,直接从零开始,搞出了一套名为“行级热交换器”(In-Row Heat Exchanger,简称IRHX)的系统,
一举打通了风冷与液冷混布的任督二脉,让老旧机房也能跑最前沿的AI大模型。
想象一下你家里只有一间朝南的房间特别热,其他房间都凉快, 你是给整栋楼装中央空调,还是只给那间房装一台高效空调? 显然,后者更聪明、更经济、更灵活。
亚马逊要的,就是这种“精准制冷”——只对最热的芯片区域液冷,其余部分仍用风冷, 在同一个数据中心里,空气冷与液体冷和谐共处,互不干扰,还能自由切换。
但市场上的现成方案根本做不到这一点。
要么是整栋液冷机房,动辄数亿美元投资,建设周期两到三年;
要么是某些“贴片式”液冷模块,散热能力有限,无法支撑千卡级AI训练集群;
更关键的是,这些方案无法快速部署到全球120个可用区、38个大区的既有设施中。
对亚马逊来说,这等于把客户晾在一边干等,这不是他们的风格。
于是,他们干了一件只有巨头才敢干的事:从芯片封装开始重新思考散热逻辑。
IRHX的核心,是一种“直触芯片”的冷板设计——在GPU或AI加速器上方, 直接压上一块密封的金属冷板,内部走高导热液体,形成封闭循环回路。 热量从芯片表面传导到冷板,被液体瞬间带走,全程不接触外部空气,也不额外用水。
这看似简单,但工程难度极高:冷板必须极致平整,热阻要压到毫瓦级, 接口要耐高压、抗腐蚀,还要适配不同厂商芯片的尺寸与热分布。
更绝的是,这套系统不是为单一机房定制的“艺术品”,而是可批量复制的“工业品”。 亚马逊的工程师们硬是把它做成了标准化模块, 能像搭积木一样快速嵌入现有风冷机柜排之间,无需改动建筑结构、电力系统或消防方案。
这意味着,从旧金山到法兰克福,从东京到孟买, 只要机房有空间,三个月内就能上线液冷AI算力。
截至2025年,亚马逊的机器学习算力已进入“多吉瓦”(multi-gigawatt)量级—— 这是什么概念?相当于同时点亮30座中型城市的全部用电负荷。 而到了2026年,其中超过20%的算力将由这套IRHX液冷系统承载。 别小看这20%,它背后是数万张H100、B200乃至下一代Blackwell Ultra芯片的持续满载运行; 是每天数万次的大模型训练任务;是客户对推理延迟毫秒级的苛刻要求。
而IRHX带来的不只是“能用”,更是“好用”:实测数据显示,相比纯风冷数据中心,IRHX系统的整体水耗反而降低了9%。
你没看错——液冷比风冷更省水。 这是因为传统风冷依赖大规模冷却塔蒸发散热,而IRHX采用封闭回路, 仅需少量补充水,且可与间接蒸发冷却或干冷器耦合,实现“近零水耗”运行。
在能效方面,IRHX比市面上通用型液冷方案提升20%以上:这20%不是理论值,而是PUE(电源使用效率)实测数据。 要知道,在吉瓦级数据中心里,PUE每降低0.01,一年就能省下数千万美元电费。 20%的能效跃升,意味着同样一兆瓦电力,能多跑约25%的AI计算任务, 这直接转化为客户的成本优势和亚马逊的利润空间。
更重要的是,IRHX不是一次性技术秀,而是长期战略支点。 因为是自研系统,亚马逊掌握了从冷板材料、流道设计、泵控算法到监控API的全栈知识产权。 未来无论是升级到相变冷却、浸没式液冷,还是集成AI驱动的动态调温策略, 都可以基于IRHX架构平滑演进,无需推倒重来。
这种“可进化”的基础设施思维,正是亚马逊过去二十年领跑云计算的关键。 从全球第一个公有云EC2,到自研ARM芯片Graviton,再到如今的IRHX液冷系统,
他们始终相信:真正的护城河,不在财报数字里,而在机房地板下、芯片封装中、冷却管道内。
而这场液冷革命的意义,远不止于技术本身。 它标志着数据中心设计范式的根本转变——从“统一冷却”走向“按需冷却”, 从“设施驱动”转向“负载驱动”。
未来的AI数据中心,不再是千篇一律的“冷盒子”,而是像人体一样, 哪里热就给哪里供血,哪里算力密集就精准制冷,实现热管理的“个性化医疗”。
当然,这条路并不容易。
冷板与芯片之间的热界面材料(TIM)必须每半年更换一次,否则导热性能衰减; 液体泵的噪音与振动必须控制在极低水平,以免干扰硬盘读写; 不同厂商的AI芯片热密度差异巨大,H100与MI300X的散热需求天差地别, IRHX必须具备极强的兼容性与自适应能力。
但亚马逊已经跑通了全链路验证。
他们在多个区域部署了混合机柜:前排是液冷AI训练集群,后排是风冷通用服务器, 中间仅隔一块隔热板,电力、网络、监控系统完全共享。
这种“液风混布”模式,极大提升了机房空间利用率, 也让客户能根据业务阶段灵活选择——训练用液冷,推理用风冷,无缝切换。
放眼全球,谷歌、微软、Meta也在加速液冷布局,但路径各不相同。
谷歌押注浸没式冷却,微软倾向冷板+间接液冷,Meta则在测试两相流系统。
而亚马逊选择了一条更务实的路:不追求极致PUE,而是追求“快速部署+平滑过渡”。
因为他们知道,AI军备竞赛的胜负,不只看谁的芯片更强,更看谁的基建更快。
IRHX的成功,也再次验证了一个底层逻辑: 在AI时代,硬件创新不再只是芯片公司的专利,云厂商正成为系统级创新的主导者。 NVIDIA提供算力引擎,但如何让这台引擎在高温高湿高负载下持续轰鸣, 靠的是亚马逊、阿里、Azure这些“算力地基建筑师”。
值得一提的是,这套系统对A股投资者也有重要启示。
中国液冷产业链正迎来爆发期,从冷板铝材(如银轮股份)、液冷泵(如汉钟精机), 到冷却液(如中欣氟材)、连接器(如中航光电),再到整机柜集成商(如浪潮、曙光), 整个生态正在快速成熟。 而亚马逊IRHX的落地,证明了“行级液冷”是当前最适合大规模商用的技术路径, 这将加速国内风冷数据中心向液冷演进的节奏。
回到技术本质,高效散热从来不只是“降温”问题,而是“热流管理”问题。
AI芯片的热密度已突破1000W/cm²,相当于在指甲盖大小的面积上点着一盏白炽灯。
传统风冷的极限约在30kW/机柜,而液冷轻松突破100kW,甚至可达200kW。
没有液冷,千亿参数大模型的训练成本将高到无法承受,推理延迟也无法满足实时交互需求。
而IRHX的真正突破,在于它把液冷从“特种兵”变成了“常规军”。 不再局限于新建超算中心,而是能渗透到每一个现有机房的毛细血管中。 这种“轻量级革命”,比大拆大建更具破坏性,也更具商业价值。
可以预见,到2027年,全球超过30%的新建AI算力将采用某种形式的液冷, 而其中至少一半会借鉴IRHX的“行级部署+封闭回路+芯片直触”架构。
这不是预言,而是工程必然——因为热力学定律不会妥协,芯片也不会停止发热。
亚马逊在结尾说:“我们还没做完,还有很多要为客户发明。”
这话听着谦虚,实则霸气。
因为他们深知,AI基础设施的竞争,才刚刚进入第二章。
第一章是拼芯片,第二章是拼散热,第三章将是拼“热-电-算”一体化协同。
而在这场长跑中,谁能把冷却系统做得像电源一样可靠、像网络一样灵活、像软件一样可编程,
谁就真正掌握了AI时代的“算力主权”。
所以,别只盯着H100的出货量,更要盯住那些藏在机柜背面的铜管与冷板。
因为未来的AI霸权,不仅诞生于算法实验室,更锻造于数据中心的散热管道之中。