想象一下,数据中心就像一个巨大的、里面塞满了超级计算机的房间。这些计算机24小时不停地运行,处理我们上网、看视频、用手机app、特别是现在用AI(人工智能)产生的所有数据。
电脑房越来越大,越来越热! 因为AI太火了,大家需要越来越多的算力(就是电脑的计算能力),所以数据中心造得又大又密集,里面的电脑也越来越厉害,发热量像炉子一样高,比以前办公室里的电脑热多了去了。
以前的降温方法不够用了! 以前给电脑房降温就像给普通写字楼装空调,吹吹冷风。但现在热量太大,老方法跟不上,得换更厉害、更专业的方法。
降温很花钱,也很关键! 给这么热的房间降温,无论是建系统还是用电,都花很多钱,尤其电费是数据中心最大的开销之一。降温效果不好,电脑容易过热坏掉,损失更大。所以怎么高效降温成了建数据中心最重要的考虑。
AI催生了新技术:液体冷却! AI芯片(比如英伟达的)发热量巨大,光靠吹风扇(空气冷却)已经很难把热量快速带走。所以一种叫“液冷”的技术开始变得重要——就是用液体直接接触发热的芯片或靠近它们带走热量,效率更高。
大公司降温有绝招! 像谷歌、微软、Meta(脸书母公司)这些有钱有技术的大公司,他们在建数据中心时想了很多办法来省电降温,他们的电脑房通常比一般的更“凉快”(用电效率高)。比如:
- 利用“免费”的自然风或冷水: 天气冷的时候,直接用外面的冷空气或冷水来降温,不开耗电的冷水机。
- 让电脑“耐热”: 他们设计的电脑可以在稍微高一点的温度下正常运行,这样降温系统就不用那么卖力地把温度降得特别低。
- 管理好空气流: 不让电脑排出的热空气和想吹进去的冷空气混在一起,就像给热通道和冷通道加个“盖子”或“门”,让冷风准确地吹到电脑。
- 靠近热源降温: 在发热最厉害的电脑机架后面直接加个冷却器(像一个带散热器的门),而不是只靠房间里的空调。
英伟达 GB200: 一个超级厉害的AI计算系统,功率很大(120kW),必须用液冷。它的出现让大家意识到液冷要变主流了。
PUE (Power Usage Effectiveness): 一个衡量数据中心用电效率的指标。总用电量 ÷ 电脑用电量。越接近1越好。大公司能做到1.1左右,比行业平均(1.6)强很多。说明他们用更少的电给电脑以外的部分(主要是降温)。
不同降温设备:
- CRAC/CRAH/风扇墙: 放在房间里,负责吸走房间里的热空气。风扇墙是比较新的、效率更高的。
- 冷水机: 像个大冰箱,把水变冷,冷水再送到房间里的冷却设备。最耗电的部分之一。
- 冷却塔: 通常在室外,把冷水机产生的热量排到空气中。分干式(不耗水)和湿式(耗水,但降温效率高)。
- RDHx (后门热交换器): 装在电脑机架后面,直接给机架里的电脑降温。
- 液冷(DLC): 直接接触芯片的降温方式,最高效,适合发热量超大的AI芯片。
- 耗水问题 (WUE - Water Usage Effectiveness): 有些高效降温方法(比如湿式冷却塔)会消耗大量的水,在缺水的地方是个大问题。
总结: AI让电脑更强大,但热量也更大。数据中心要用各种高科技手段给这些电脑降温,这不仅为了让电脑好好工作,更是为了省下巨大的电费和建设成本。传统的吹冷风不够了,直接用液体给芯片降温(液冷)正成为新趋势。大公司在这方面走在前面,用了很多聪明的方法来提高效率,比如利用自然冷源和优化空气流动。未来,数据中心的降温系统会变得更加复杂和重要。