在2025年的Hot Chips大会上,谷歌首次系统性地公开了其在数据中心级液冷技术上的最新进展,尤其是围绕其自研的TPU(张量处理单元)所构建的整套液冷架构。谷歌指出,水的导热性能约为空气的4000倍,这使其成为应对当前AI热潮中散热挑战的理想解决方案。
过去PC发烧友用水冷散热显卡和CPU,现在谷歌则把这套逻辑扩展到了数据中心级别:从单机循环到整排机架的液冷环路。在这次Hot Chips 2025大会上,谷歌重点展示了为其机器学习加速器TPU设计的数据中心级冷却方案。
谷歌的液冷TPU探索之旅始于2018年,经过多次实验与迭代后,该公司持续推动冷却技术的升级演进。
当前采用的液冷解决方案专为数据中心规模设计,冷却回路横跨整个机架而非局限于单个服务器。
- 每组机架配备六台冷却液分配单元(CDU:Coolant Distribution Unit),其功能类似于发烧友水冷系统中的散热器与水泵组合。
- CDU在冷却液与设施级供水系统之间进行热交换,CDU负责将计算节点散发的热量传导到设施级的冷却水系统中,但两套水路并不直接混合,两套液体系统相互隔离,CDU仅负责在两种液体间传递热量,保证了安全性与灵活性。
- CDU采用柔性软管和快速断开接头,既简化维护流程又降低公差要求。
- CDU机架采用“N+1”冗余设计——即六个CDU中只需五个正常工作即可满足冷却需求,从而实现单台设备维护时的不间断运行。极大提升了系统的可维护性与稳定性。
串联散热与冷板优化:细节里的学问
来自CDU的冷却液通过分流装置输送至TPU服务器,芯片以串联方式接入回路,这意味着后续芯片必然会接触到经前序芯片加热过的冷却液。因此系统冷却容量需按照回路末端芯片的散热需求进行规划。
在谷歌的数据中心中,TPU芯片是串联在冷却回路上的,这意味着靠后的芯片会遇到已经升温的冷却液。为了保证稳定性,谷歌会根据最后一个芯片的需求来分配冷却预算。这种设计虽有热量分布不均的风险,但换来的是整体结构的简化和可靠性。
冷板设计也是关键。谷歌采用分流式冷板设计,该方案被证实比传统直流结构更具效能优势。
为进一步优化散热,谷歌还借鉴了发烧友领域的另一项技术:TPUv4弃用了TPUv3的封装顶盖,转而采用裸晶设计。他们在TPUv4上直接采用裸片散热(bare-die),类似PC发烧友“剥盖”(delid)的操作。
这类似于PC玩家通过开盖操作移除金属顶盖,以获取裸晶直触带来的更高热传导效率。这是因为TPUv4的功耗比TPUv3提升了1.6倍,不得不追求更高的散热效率。
液冷与能耗:效率与节能的双重价值
除提升芯片散热效能外,液冷技术还能显著降低冷却系统自身能耗。液冷不仅能更高效地带走热量,还能在能耗上胜过传统风冷。
谷歌的数据显示,液冷泵的耗电量不到风冷风扇的5%。原因在于他们采用水对水换热,基本只需要依靠泵,而无需大量高速风扇的支持。由于采用水-水热交换方式将热量从冷却液中导出,系统绝大部分冷却功耗集中于水泵环节。
相比之下,PC水冷玩家通常还是要用风扇把热量排到空气中,例如通过冷排安装风扇。这让液冷在家用场景中并没有节能优势,更多是为了静音和美观。但在高密度的服务器环境里,节省风扇能耗就是非常可观的成本优势。
理论上PC水冷玩家可以尝试将热量交换至马桶水箱,利用每次冲水实现高效散热,但由于服务器通常配备高转速风扇,而水冷PC的风扇与水泵功耗绝对值本就极低,因此发烧友领域缺乏优化冷却功耗的迫切需求。
在数据中心层面,哪怕1%的能效提升都意味着巨大的运营成本节约。谷歌的液冷方案不仅降低了冷却能耗,还显著减少了机房对空调制冷量的依赖,从而进一步压缩PUE(电源使用效率)指标。
更重要的是,液冷使得服务器可以在更高环境温度下运行,减少了对精密空调的依赖,提升了整体系统的灵活性与容错能力。
数据中心的维护挑战:规模与可靠性的平衡
PC发烧友在折腾水冷时会遇到藻类滋生、泄漏风险等问题,而这些在数据中心同样存在。但不同的是,谷歌必须确保成千上万台机器的稳定运行,任何小故障都可能放大成大规模停机风险。
为此,谷歌采取了严格的防护措施:
- 全面验证并进行漏液测试。
- 引入报警系统监控冷却回路的异常。
- 通过过滤、定期维护来预防问题。
- 建立统一的应急处置流程,让庞大的维护团队可以标准化操作。
谷歌通过泄漏测试对组件进行严格验证,配备预警系统实时监测泄漏等异常状态,并采取计划性维护和液体过滤等预防性措施。同时建立标准化应急响应流程,确保庞大运维团队能够以统一方式处理问题。这种专业化运维模式与发烧友采取的临时性维护手段形成鲜明对比。
数据中心液冷技术的兴起与高端发烧友PC领域形成了引人注目的跨界共鸣。两大领域共同被液冷技术卓越的导热效能所吸引,又面临着相似的技术挑战。但数据中心因规模化和可靠性要求走出了独特的发展路径。
与个人玩家“边玩边修”的随意风格不同,谷歌的液冷运维是一套高度规范化、可复制、可扩展的工业级流程。无论是快速断开接头的设计,还是模块化替换策略,都体现了“零停机维护”的核心理念。
这种系统级思维正是企业级液冷与消费级水冷的本质区别:前者追求的是在超大规模下长期稳定运行的能力,而后者更多关注单机性能极限的突破。
行业趋势:AI推动液冷成为主流
谷歌并非唯一的探索者。在Hot Chips 2025开幕首日,多家企业已展示液冷解决方案:
- 英伟达展出的GB300服务器清晰可见外部水冷接口,其不仅采用柔性管道设计,还意外保留了风扇配置;机身外部就有液冷接口,并辅以柔性管道和风扇。外部清晰可见的液冷接口和柔性管路设计,表明其已全面拥抱液冷方案。
- 韩国初创公司Rebellions AI为其新一代ML加速器搭建的演示平台更是引人注目——虽然其"REBEL Quad"芯片最终将采用PCIe卡式风冷设计,但现场却通过冷水机与造型炫酷的水冷头搭建了震撼的演示系统,吸引了大量观众驻足,尽管量产版本仍会用风冷。
这些迹象无不表明,随着AI芯片功耗不断攀升,液冷已不再是可选项,而是必选项。
液冷已经不再是爱好者的小众玩法,而是成为AI计算浪潮下不可回避的行业趋势。随着模型规模和算力需求的不断攀升,空气已经无法承载这种热量,水冷则顺理成章成为数据中心的新常态。
总而言之,谷歌在Hot Chips 2025上展示的液冷技术,不仅是对自身TPU基础设施的一次深度剖析,更是对未来数据中心演进方向的重要预示。它连接了极客文化与工业工程的交汇点:一方面,我们能看到PC发烧友熟悉的“开盖”“分体水冷”等元素;另一方面,其背后支撑的是严谨的可靠性工程、大规模自动化运维和可持续发展的能源战略。
可以预见,随着AI训练模型的持续膨胀,液冷将在更多数据中心落地生根,成为支撑数字文明底层算力的关键支柱。
对国内数据中心的启示
对于国内的数据中心运营商和AI公司来说,谷歌的液冷探索有几个值得关注的地方。
第一,AI模型的规模化训练已经把传统风冷推到了极限。国内大模型的发展速度同样迅猛,芯片和服务器的能耗曲线几乎和国外保持同步。这意味着国内数据中心迟早要全面面对液冷的现实需求,不可能长期依赖高转速风扇和空调。
第二,液冷并不仅仅是散热问题,更涉及维护、运维和标准化。谷歌的做法提醒我们:在数万台机器同时运行的场景中,任何小问题都可能放大成灾难性后果。中国在建设超大规模数据中心时,必须同步建立可靠的液冷维护体系,从漏液监控到备用模块切换,都需要工业级的冗余设计。
第三,液冷还可能成为节能减排的突破口。数据中心在国内已经是耗电大户,如何减少PUE(能源使用效率指标)是行业关键。液冷的泵耗电远低于风冷风扇,这一点对国内电力成本敏感的运营商尤为重要。未来甚至可以结合可再生能源、水循环利用,打造更绿色的数据中心。
第四,液冷产业链也是值得关注的机会。冷板、冷却液、CDU、快速接头、监控系统,这些环节都可能孕育新一轮产业升级。国内厂商若能在这一环节卡位,或许能借AI算力需求的爆发,找到新的增长点。
A股与液冷相关公司?
提供成套液冷系统,属于“水冷循环方案提供者”:
- 英维克(002837)
- 专注于数据中心温控,推出冷板式和浸没式液冷方案。
- 在头部云厂商 IDC 中有落地案例。
- 高澜股份(300499)
- 液冷解决方案供应商,涉及冷板式、浸没式系统。
- 提供液冷循环控制设备、配件等完整系统。
- 佳力图(603912)
- 原本是数据中心精密空调厂商,近年来积极转型液冷系统。
- 产品已进入部分液冷机柜应用场景。
- 依米康(300249)
- IDC 基础设施厂商,承接液冷数据中心项目。
- 提供液冷配套系统和一体化解决方案。
提供液冷所必需的 冷板 / 水泵 / 管路 / 冷却液,是真正参与产业链的:
- 银轮股份(002126)
- 国内领先的换热器厂商,液冷冷板已供应给华为、中兴等客户。
- 飞荣达(300602)
- 散热结构件厂商,切入液冷板与液冷组件。
- 中石科技(300684)
- 导热材料与液冷散热组件厂商,参与液冷一体化方案。
- 巨化股份(600160)
- 生产电子级氟化液,是浸没式液冷冷却液的核心供应商。
- 新宙邦(300037)
- 进入电子冷却液业务,提供浸没式液冷介质。
- 三花智控(002050)
- 提供液冷系统中的电磁阀、电子泵等关键元件。
- 川环科技(300547)
- 液冷管路系统供应商,进入华为/浪潮等整机商供应链。