亚马逊自研“行级液冷”颠覆AI基建逻辑，从芯片封装开始重新思考散

亚马逊自研In-Row Heat Exchanger（IRHX）行级液冷系统，无需新建数据中心即可实现芯片级高效散热，2026年将支撑其超20%的AI算力，水耗降低9%、能效提升20%。

当AI浪潮撞上数据中心天花板，全球云厂商集体陷入同一道困局：芯片必须挨得足够近，才能高速交换数据，但靠得越近，发热量就越恐怖；传统风冷早已力不从心，液冷虽是解药，但新建液冷机房周期长、成本高、部署慢；

等得起吗？客户等不起，市场更等不起。这是一场算力与散热之间的极限拉扯。

在这个人人都在喊“液冷是未来”的时代，真正的问题从来不是“要不要液冷”，而是“怎么在不拆掉现有风冷机房的前提下，快速把液冷塞进去”？
亚马逊给出的答案，既不是赌注新建，也不是照搬市面方案，而是——自己造一套。
他们没等，没靠，没抄，直接从零开始，搞出了一套名为“行级热交换器”（In-Row Heat Exchanger，简称IRHX）的系统，
一举打通了风冷与液冷混布的任督二脉，让老旧机房也能跑最前沿的AI大模型。

想象一下你家里只有一间朝南的房间特别热，其他房间都凉快，你是给整栋楼装中央空调，还是只给那间房装一台高效空调？显然，后者更聪明、更经济、更灵活。
亚马逊要的，就是这种“精准制冷”——只对最热的芯片区域液冷，其余部分仍用风冷，在同一个数据中心里，空气冷与液体冷和谐共处，互不干扰，还能自由切换。

但市场上的现成方案根本做不到这一点。
要么是整栋液冷机房，动辄数亿美元投资，建设周期两到三年；
要么是某些“贴片式”液冷模块，散热能力有限，无法支撑千卡级AI训练集群；

更关键的是，这些方案无法快速部署到全球120个可用区、38个大区的既有设施中。
对亚马逊来说，这等于把客户晾在一边干等，这不是他们的风格。

于是，他们干了一件只有巨头才敢干的事：从芯片封装开始重新思考散热逻辑。

IRHX的核心，是一种“直触芯片”的冷板设计——在GPU或AI加速器上方，直接压上一块密封的金属冷板，内部走高导热液体，形成封闭循环回路。热量从芯片表面传导到冷板，被液体瞬间带走，全程不接触外部空气，也不额外用水。

这看似简单，但工程难度极高：冷板必须极致平整，热阻要压到毫瓦级，接口要耐高压、抗腐蚀，还要适配不同厂商芯片的尺寸与热分布。

更绝的是，这套系统不是为单一机房定制的“艺术品”，而是可批量复制的“工业品”。亚马逊的工程师们硬是把它做成了标准化模块，能像搭积木一样快速嵌入现有风冷机柜排之间，无需改动建筑结构、电力系统或消防方案。

这意味着，从旧金山到法兰克福，从东京到孟买，只要机房有空间，三个月内就能上线液冷AI算力。

截至2025年，亚马逊的机器学习算力已进入“多吉瓦”（multi-gigawatt）量级—— 这是什么概念？相当于同时点亮30座中型城市的全部用电负荷。而到了2026年，其中超过20%的算力将由这套IRHX液冷系统承载。别小看这20%，它背后是数万张H100、B200乃至下一代Blackwell Ultra芯片的持续满载运行；是每天数万次的大模型训练任务；是客户对推理延迟毫秒级的苛刻要求。

而IRHX带来的不只是“能用”，更是“好用”：实测数据显示，相比纯风冷数据中心，IRHX系统的整体水耗反而降低了9%。
你没看错——液冷比风冷更省水。这是因为传统风冷依赖大规模冷却塔蒸发散热，而IRHX采用封闭回路，仅需少量补充水，且可与间接蒸发冷却或干冷器耦合，实现“近零水耗”运行。

在能效方面，IRHX比市面上通用型液冷方案提升20%以上：这20%不是理论值，而是PUE（电源使用效率）实测数据。要知道，在吉瓦级数据中心里，PUE每降低0.01，一年就能省下数千万美元电费。 20%的能效跃升，意味着同样一兆瓦电力，能多跑约25%的AI计算任务，这直接转化为客户的成本优势和亚马逊的利润空间。

更重要的是，IRHX不是一次性技术秀，而是长期战略支点。因为是自研系统，亚马逊掌握了从冷板材料、流道设计、泵控算法到监控API的全栈知识产权。未来无论是升级到相变冷却、浸没式液冷，还是集成AI驱动的动态调温策略，都可以基于IRHX架构平滑演进，无需推倒重来。

这种“可进化”的基础设施思维，正是亚马逊过去二十年领跑云计算的关键。从全球第一个公有云EC2，到自研ARM芯片Graviton，再到如今的IRHX液冷系统，
他们始终相信：真正的护城河，不在财报数字里，而在机房地板下、芯片封装中、冷却管道内。

而这场液冷革命的意义，远不止于技术本身。它标志着数据中心设计范式的根本转变——从“统一冷却”走向“按需冷却”，从“设施驱动”转向“负载驱动”。

未来的AI数据中心，不再是千篇一律的“冷盒子”，而是像人体一样，哪里热就给哪里供血，哪里算力密集就精准制冷，实现热管理的“个性化医疗”。

当然，这条路并不容易。
冷板与芯片之间的热界面材料（TIM）必须每半年更换一次，否则导热性能衰减；液体泵的噪音与振动必须控制在极低水平，以免干扰硬盘读写；不同厂商的AI芯片热密度差异巨大，H100与MI300X的散热需求天差地别， IRHX必须具备极强的兼容性与自适应能力。

但亚马逊已经跑通了全链路验证。
他们在多个区域部署了混合机柜：前排是液冷AI训练集群，后排是风冷通用服务器，中间仅隔一块隔热板，电力、网络、监控系统完全共享。
这种“液风混布”模式，极大提升了机房空间利用率，也让客户能根据业务阶段灵活选择——训练用液冷，推理用风冷，无缝切换。

放眼全球，谷歌、微软、Meta也在加速液冷布局，但路径各不相同。
谷歌押注浸没式冷却，微软倾向冷板+间接液冷，Meta则在测试两相流系统。
而亚马逊选择了一条更务实的路：不追求极致PUE，而是追求“快速部署+平滑过渡”。

因为他们知道，AI军备竞赛的胜负，不只看谁的芯片更强，更看谁的基建更快。

IRHX的成功，也再次验证了一个底层逻辑：在AI时代，硬件创新不再只是芯片公司的专利，云厂商正成为系统级创新的主导者。 NVIDIA提供算力引擎，但如何让这台引擎在高温高湿高负载下持续轰鸣，靠的是亚马逊、阿里、Azure这些“算力地基建筑师”。

值得一提的是，这套系统对A股投资者也有重要启示。
中国液冷产业链正迎来爆发期，从冷板铝材（如银轮股份）、液冷泵（如汉钟精机），到冷却液（如中欣氟材）、连接器（如中航光电），再到整机柜集成商（如浪潮、曙光），整个生态正在快速成熟。而亚马逊IRHX的落地，证明了“行级液冷”是当前最适合大规模商用的技术路径，这将加速国内风冷数据中心向液冷演进的节奏。

回到技术本质，高效散热从来不只是“降温”问题，而是“热流管理”问题。
AI芯片的热密度已突破1000W/cm²，相当于在指甲盖大小的面积上点着一盏白炽灯。
传统风冷的极限约在30kW/机柜，而液冷轻松突破100kW，甚至可达200kW。
没有液冷，千亿参数大模型的训练成本将高到无法承受，推理延迟也无法满足实时交互需求。

而IRHX的真正突破，在于它把液冷从“特种兵”变成了“常规军”。不再局限于新建超算中心，而是能渗透到每一个现有机房的毛细血管中。这种“轻量级革命”，比大拆大建更具破坏性，也更具商业价值。

可以预见，到2027年，全球超过30%的新建AI算力将采用某种形式的液冷，而其中至少一半会借鉴IRHX的“行级部署+封闭回路+芯片直触”架构。
这不是预言，而是工程必然——因为热力学定律不会妥协，芯片也不会停止发热。

亚马逊在结尾说：“我们还没做完，还有很多要为客户发明。”
这话听着谦虚，实则霸气。
因为他们深知，AI基础设施的竞争，才刚刚进入第二章。
第一章是拼芯片，第二章是拼散热，第三章将是拼“热-电-算”一体化协同。

而在这场长跑中，谁能把冷却系统做得像电源一样可靠、像网络一样灵活、像软件一样可编程，
谁就真正掌握了AI时代的“算力主权”。

所以，别只盯着H100的出货量，更要盯住那些藏在机柜背面的铜管与冷板。
因为未来的AI霸权，不仅诞生于算法实验室，更锻造于数据中心的散热管道之中。

亚马逊自研“行级液冷”颠覆AI基建逻辑，从芯片封装开始重新思考散

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道