AI数据中心液冷散热综述

想象一下,数据中心就像一个巨大的、里面塞满了超级计算机的房间。这些计算机24小时不停地运行,处理我们上网、看视频、用手机app、特别是现在用AI(人工智能)产生的所有数据。

电脑房越来越大,越来越热! 因为AI太火了,大家需要越来越多的算力(就是电脑的计算能力),所以数据中心造得又大又密集,里面的电脑也越来越厉害,发热量像炉子一样高,比以前办公室里的电脑热多了去了。

以前的降温方法不够用了! 以前给电脑房降温就像给普通写字楼装空调,吹吹冷风。但现在热量太大,老方法跟不上,得换更厉害、更专业的方法。

降温很花钱,也很关键! 给这么热的房间降温,无论是建系统还是用电,都花很多钱,尤其电费是数据中心最大的开销之一。降温效果不好,电脑容易过热坏掉,损失更大。所以怎么高效降温成了建数据中心最重要的考虑。

AI催生了新技术:液体冷却! AI芯片(比如英伟达的)发热量巨大,光靠吹风扇(空气冷却)已经很难把热量快速带走。所以一种叫“液冷”的技术开始变得重要——就是用液体直接接触发热的芯片或靠近它们带走热量,效率更高。

大公司降温有绝招! 像谷歌、微软、Meta(脸书母公司)这些有钱有技术的大公司,他们在建数据中心时想了很多办法来省电降温,他们的电脑房通常比一般的更“凉快”(用电效率高)。比如:

  • 利用“免费”的自然风或冷水: 天气冷的时候,直接用外面的冷空气或冷水来降温,不开耗电的冷水机。
  • 让电脑“耐热”: 他们设计的电脑可以在稍微高一点的温度下正常运行,这样降温系统就不用那么卖力地把温度降得特别低。
  • 管理好空气流: 不让电脑排出的热空气和想吹进去的冷空气混在一起,就像给热通道和冷通道加个“盖子”或“门”,让冷风准确地吹到电脑。
  • 靠近热源降温: 在发热最厉害的电脑机架后面直接加个冷却器(像一个带散热器的门),而不是只靠房间里的空调。
未来,液冷会越来越普遍。 随着AI越来越强大,电脑芯片越来越热,液冷不再只用于少数超级计算机,而是会更多地出现在大型数据中心里。这会改变很多数据中心的设计,以及生产降温设备的公司的业务。

英伟达 GB200: 一个超级厉害的AI计算系统,功率很大(120kW),必须用液冷。它的出现让大家意识到液冷要变主流了。

PUE (Power Usage Effectiveness): 一个衡量数据中心用电效率的指标。总用电量 ÷ 电脑用电量。越接近1越好。大公司能做到1.1左右,比行业平均(1.6)强很多。说明他们用更少的电给电脑以外的部分(主要是降温)。

不同降温设备:

  • CRAC/CRAH/风扇墙: 放在房间里,负责吸走房间里的热空气。风扇墙是比较新的、效率更高的。
  • 冷水机: 像个大冰箱,把水变冷,冷水再送到房间里的冷却设备。最耗电的部分之一。
  • 冷却塔: 通常在室外,把冷水机产生的热量排到空气中。分干式(不耗水)和湿式(耗水,但降温效率高)。
  • RDHx (后门热交换器): 装在电脑机架后面,直接给机架里的电脑降温。
  • 液冷(DLC): 直接接触芯片的降温方式,最高效,适合发热量超大的AI芯片。
  • 耗水问题 (WUE - Water Usage Effectiveness): 有些高效降温方法(比如湿式冷却塔)会消耗大量的水,在缺水的地方是个大问题。

总结: AI让电脑更强大,但热量也更大。数据中心要用各种高科技手段给这些电脑降温,这不仅为了让电脑好好工作,更是为了省下巨大的电费和建设成本。传统的吹冷风不够了,直接用液体给芯片降温(液冷)正成为新趋势。大公司在这方面走在前面,用了很多聪明的方法来提高效率,比如利用自然冷源和优化空气流动。未来,数据中心的降温系统会变得更加复杂和重要。