想象一下,数据中心就像是给全世界各种网站、应用、视频提供动力的“超级大仓库”。里面堆满了特别厉害的电脑(服务器),这些电脑需要很多电,而且工作起来会发热。
数据中心这个行业以前就很重要,但现在因为一个“超级大客户”——人工智能(AI)——变得前所未有的火爆,发展速度快得惊人。为啥?因为训练和运行AI需要海量的计算力,就像要给AI喂特别特别多的信息,让它变得聪明,这需要超级强大的电脑,而且是成千上万台一起工作。
结果呢?AI就像一个特别能吃电的“巨兽”,对电力的需求一下子暴涨。这不仅让整个国家电网都感到压力(宏观影响),也让每个数据中心自己找电、用电变得很紧张(微观影响)。电力供应,缺!
以前,数据中心对放进“仓库”里的电脑,功率密度(也就是在同样大的地方塞进多少电、放多少强大的电脑)要求没那么高。虽然大家知道未来会需要更厉害的,但行动比较慢。一些小公司先尝试了一些新的设计,来适应AI。
甚至像英伟达(就是那个做AI芯片很牛的公司)在用一种叫“液冷”的技术给芯片降温方面,都比谷歌慢一些。整个行业当时还没有一个统一的标准,不知道未来到底该怎么建。
英伟达的“黑科技”:Blackwell来了,改变一切 但英伟达即将推出的新一代AI平台,叫做Blackwell(里面的代表就是GB200芯片系列),彻底打破了这个局面。
Blackwell的GB200系列芯片,必须用一种叫做“直接芯片液冷”的技术来降温。而且,放满这种芯片的一个机架(想象成一个高高的架子,里面放很多服务器),需要的电高达130千瓦!这功率密度比上一代(H100)高多了。但好处是,它运行AI的速度也快得惊人,做“推理”(AI理解和回答问题)比H100快9倍,做“训练”(让AI学习)快3倍!
如果哪个数据中心不愿意或者没能力提供这种高密度的液冷技术,他们就无法满足客户对高性能AI的需求,客户也享受不到Blackwell带来的巨大优势(比如更低的总体使用成本),就肯定会在生成式AI这场比赛中输掉。
Blackwell设标准,数据中心设计大变样 Blackwell出来后,就像定了一个新规矩:未来的AI数据中心就得这么建!这一下让数据中心的设计师和供应商们有了明确的方向,知道该怎么做了。这也导致数据中心里需要的设备和组件会发生大变化,有些公司的产品会更受欢迎,有些可能就落后了。
最典型的例子:Meta拆楼! 大公司Meta(就是做Facebook的那个)竟然拆掉了一整栋正在建设的数据中心大楼!为啥?就因为他们多年来一直在用的那种低功率密度设计,已经不适合未来的AI需求了。这栋楼还没建成就过时了!所以他们决定推倒重建,用全新的、为AI设计好的方案代替。
Meta以前的数据中心功率密度在那些超大规模数据中心里是最低的,远不如谷歌等其他公司。
数据中心基础知识: 数据中心就是专门为电脑设备建的房子,要给它们稳定安全的电,还要给它们降温,让它们能长时间高效工作,而且尽量省钱。电脑(IT设备)都放在架子(机架)里。
以前的数据中心就像装了强力空调的办公楼,但现在因为大家都在看海量视频、刷社交媒体,数据中心变得巨大无比。它们每平方米用的电可能是普通办公楼的50倍以上!所以,怎么给这些电脑散热,需要的降温系统完全不一样了。
数据中心不能停,停了损失惨重。所以里面的电力系统和降温系统必须非常可靠。电力出问题常见些,但降温出问题更可怕。
衡量数据中心可靠性的标准叫做“Tier”(等级)。Tier 3是常见的大型数据中心等级,要求有备份电源。Tier 4更可靠,几乎不会停机。
“备份”(冗余)用N、N+1、2N表示。N是够用,N+1是多一个备用,2N是所有东西都准备两套。Tier 3的数据中心,给电脑供电的部分(UPS、PDU)通常用2N。
大公司给客户的承诺(SLA),比如99.999%时间都能用,这不光是一个数据中心不宕机,还包括用好几个数据中心互相备份,以及里面的服务器、网络都不停。
不同类型的数据中心(仓库有大中小):
- 零售数据中心: 小仓库,通常在市区,租给很多小客户,每个客户租几个架子。优势是“位置好”,方便大家互相连接。
- 批发数据中心: 大一些的仓库(10-30兆瓦),租给更大的客户,他们租好几排架子。优势是“能容纳更多”,可以分期建设,跟着客户一起长大。
- 超大规模数据中心: 巨型仓库,通常是大公司(谷歌、微软)自己建给自己用,或者让别人按他们的要求定制后租给他们。一栋楼就几十上百兆瓦,一个园区能有好几百兆瓦!这是过去十年数据中心市场变化最大的趋势,因为云计算和社交媒体,现在又加上AI。
前面说的那个2万多块H100芯片组成的AI计算集群,就需要一个26兆瓦的数据中心。现在大家在建10万块H100甚至更大的“千兆瓦”集群,需要的电更多。
数据中心的电力系统(电是怎么进仓库、到电脑的) 目标:安全高效地把电送到放满电脑的架子那儿。为了减少电在路上浪费,电的电压越高越好,但太高的电压危险,所以会一步步降压。
电先从外面(电网)进来,可能是高压或中压。如果是高压,先到变电站(像一个大插头转换站),降到中压。
中压电用开关设备(像电闸)分配到靠近电脑房间的地方。
在电脑房间附近,再用变压器(像第二个插头转换站)把中压电降到电脑能用的低压(美国常用415伏)。
旁边还有一个柴油发电机,发电也是低压。停电了,一个自动转换开关(ATS)会立刻切换到发电机供电。
低压电分两条路:一条给电脑,一条给降温设备。
给电脑的路:先经过UPS(不间断电源,就是带电池的电源),这个电池能顶几分钟,足够发电机启动(发电机启动需要1分钟左右),防止瞬间断电。
UPS出来的电,通常通过PDU(配电单元)或母线槽(像电力的轨道)送到电脑架子那儿。
最后,电脑架子里的电源(PSU)和芯片旁边的电力小管家(VRM)把电送到芯片里。
高压变压器: 巨型园区用的,把电网更高压的电降下来。很大,定制的,要提前很久订。
数据厅和数据舱: 大楼分成很多房间(数据厅)放服务器。数据厅又分成很多小区域(Pod),每个区域都有自己的发电机、变压器、UPS等设备。这样建的好处是:可以像搭积木一样快速扩大,而且可以用市面上标准尺寸的设备,更容易买到。
发电机: 停电时的备用电源,通常烧柴油(方便),也有烧天然气的。功率很大,一个发电机就像一个火车头那么有力。数据中心通常存好几天用的柴油。柴油发电机污染大,所以设备比较贵。
UPS: 非常重要,保证电不断。里面有电池,还有把电池的直流电变回交流电给电脑用的设备,以及给电池充电的设备。效率不高,会损耗3-5%的电。现在有更先进的模块化UPS,效率高一些。通常用两套UPS做备份(2N)。
超大规模数据中心的电力“花活”: 大公司为了更省电、更省钱,会用一些更复杂的电力设计,比如4N3R或N+2C,比简单的2N利用率更高。
电源怎么到架子: 电通过架子顶上的母线槽(像硬轨道)或者软电缆送到每个架子。高功率常用母线槽。为了备份,母线槽和电缆通常也是两套(A路和B路)。架子里面的PDU(垂直的)也是用来分配电力的。
OCP架子和BBU: Meta等公司搞了一些新设计,比如OCP架子。传统的每个服务器自己把交流电变成直流电,OCP是一个“电源架”给整个架子统一变电,更省电。电源架里还可以装电池(BBU),相当于把UPS放到了架子里,这样可以省掉中央UPS,进一步提高效率。但架子里放电池防火要求很高。
AI数据中心突破了传统极限: 生成式AI带来的巨大计算需求,彻底改变了数据中心的设计和规划。
- 电! AI需要电量增长太快了,以后一个数据中心50兆瓦都不够用。
- 密度! 需要把更多的计算力(强大的芯片)塞进同一个地方。这是因为芯片之间交流(网络)很重要,用铜线比光纤快、省电、便宜,但铜线只能传几米,所以芯片必须离得很近。
为什么Meta要拆楼? 回到Meta拆楼的例子。Meta旧的数据中心设计(H型建筑),功率密度比不上竞争对手。虽然Meta的楼里发电机数量可能不少,但它楼更大,所以平均下来,每平方米能塞进的电和计算力比谷歌等公司低很多(谷歌的功率密度是Meta的3倍多)。而且Meta的老设计建起来要两年,谷歌新设计只要六七个月。
Meta的老设计虽然可能在某些方面(比如降温效率,下一篇文章会讲)有优点,但面对AI这场“军备竞赛”,功率密度低是它一个致命的劣势。新来的Blackwell芯片功率太高,老楼根本装不下、也降不了温。所以Meta不得不放弃老设计,赶紧建能适应未来的“AI-Ready”数据中心。
总结: AI太强大了,需要很多厉害的电脑一起算。这些电脑超级费电,还发热。以前的数据中心设计不够给力,装不下这么多又费电又热的AI电脑。英伟达出了新芯片Blackwell,特别厉害,但也需要超级高的电和特别的液冷。
这就逼着数据中心必须改设计,要能装更多更强的电脑,要能提供更多电,还要会用新的降温方法。
Meta拆掉旧楼重建,就是因为它的老设计跟不上这个变化,必须换成能迎接AI挑战的新设计。
怎么安全高效地把电送到这些越来越强大的AI电脑那里,是现在数据中心建设中最关键、最烧钱的问题之一。