AI数据中心用电量暴增,但48V供电已到物理极限。本文用大白话讲清楚为什么必须升级到800V高压供电,以及机柜内部怎么一步步变压,本文最后对比三种技术路线的输家赢家。
AI机柜耗电越来越大,老式48V供电已经扛不住了。根本原因是电流太大,导致铜排太重、发热太猛、电压掉得太快。解决办法是全程用800V高压供电,直到电送到芯片屁股底下再降压。这就像用光纤传数据,光信号走越远越好,最后再转成电信号。高压供电的道理一模一样。
为什么老办法48V不灵了
咱们先算一笔账。现在一个机柜要带600千瓦的功率,用48V供电的话,电流需要12500安培。
12500安培是什么概念?你家空调大概10安培。一个机柜相当于一千多台空调同时开。这么大的电流流过铜排,会产生三个要命的问题。
第一个问题是电压掉得太快。电线本身有电阻,电流越大,电阻上消耗的电压就越大。工程师规定电压只能掉1%,也就是0.48伏。用欧姆定律一算,整个供电回路的总电阻必须低于38微欧。38微欧有多小?一根粗铜排两头接好,接头那里稍微没拧紧,电阻就超标了。这相当于你兜里只有十块钱买菜,鸡蛋、青菜、肉每样都得买,根本没得挑。
第二个问题是铜排太重。铜排的载流能力大约是每平方英寸1000安培。12500安培需要12平方英寸截面积的铜排。按4英寸乘3英寸算,一根7英尺高的铜排,体积大约1000立方英寸。铜的密度是每立方英寸147克,一根铜排就重147公斤。一个机柜好几根铜排,光铜就半吨多。铜还死贵,成本完全失控。
第三个问题是发热。发热功率等于电流的平方乘以电阻。电流从1000安培涨到12500安培,发热量是原来的156倍。即便把电阻压到38微欧那么低,发热量还有6千瓦。这6千瓦的热量还得额外花钱用空调吹走。
这三个问题叠加在一起,结论只有一个:48V这条路走到头了。只要单机柜功率超过100千瓦,48V就完全不经济。现在AI机柜动辄600千瓦甚至更高,必须换思路。
高压供电能解决哪些麻烦
把电压从48V升到800V,同样600千瓦功率,电流从12500安培骤降到750安培。这是16.7倍的降幅。
再算刚才那三笔账。电压掉1%的预算是8伏,除以750安培,允许的电阻是11毫欧。38微欧和11毫欧差了两个数量级,设计裕量大得多了。这就像兜里从十块钱变成一千块,买菜随便买。
铜排截面积只需要1平方英寸,也就是1乘1英寸的方铜条,就能扛1000安培。750安培绰绰有余。铜排体积降到84立方英寸,重量只有12.3公斤。原来半吨多,现在十几公斤,人力就能搬动,成本也下来了。
发热量按11毫欧算,发热功率是0.56千瓦。哪怕我们把电阻做得比理论值宽松25倍,发热也只有0.56千瓦,是原来6千瓦的十分之一。空调负荷大幅下降。
所以核心结论就一句话:电压能扛多高就扛多高,降压能拖多晚就拖多晚。这个道理跟光纤传数据一模一样。光纤不怕趋肤效应,所以信号在光纤里跑越远越好,到最后几毫米再转成电信号进芯片。供电也一样,800V从变电站一直送到机柜,在机柜里也不急着降压,直到电要进GPU的那一瞬间,才从800V一口气降到0.8伏。
这种架构在业内叫做垂直供电,说白了就是把降压电路直接塞在GPU正下方,供电距离只有几厘米。传统48V机柜里,电从机柜顶部的电源模块出发,经过母线排、中间总线转换器、电压调节模块,最后才到芯片。每一段都有损耗。垂直供电把这些中间环节全砍掉,损耗自然就下来了。
电压每降一次都要付出代价
电从高压变低压,需要转换器。每一个转换器都有效率损耗。就算每个转换器效率高达97%,三个转换器串在一起,总效率就只剩91%。那9%的电全变成热量了。
一万千瓦的机柜,9%就是九百千瓦的热量,得用多大空调吹走?这都是白花花的电费。
那为什么不干脆一步到位,直接从800V降到0.8伏?因为技术上做不到。降压比太大,1000倍的压差,现有电路根本扛不住。这就好比让你从一百楼直接跳到底楼,中间没有缓冲层,肯定摔死。必须分几段往下跳。
分几段、每段降到多少伏,由三个硬约束决定。
第一个约束是安全电压阈值。国际标准规定,直流60伏以下算安全特低电压。人摸上去不会电死。所以48V、54V这些电压很流行,刚好卡在60伏下面。凡是高于60伏的电路,必须做电气隔离。隔离就是用变压器把输入和输出分开,没有导线直连。这样人摸输出端不会触电。
隔离的好处是安全,坏处是变压器又大又重又贵,效率还低一两个百分点。所以工程师的算盘是:能不做隔离就不做隔离。只要电压降到48伏以下,后面的所有转换器都可以用非隔离的便宜方案。
第二个约束是转换效率跟压差有关。压差越大,效率越难做高。从48伏降到0.8伏,压差60倍,效率能做到90%就很厉害了。从12伏降到0.8伏,压差15倍,效率能做到95%以上。所以就算你最终要的是0.8伏,中间也得找个中间电压缓冲一下。
第三个约束是芯片对电压稳定性要求极高。GPU内部几十亿个晶体管同时开关,电流在纳秒级别内从几安培跳到几百安培。供电电路必须瞬间响应,把电压波动压到5%以内。这需要降压电路离芯片非常近,中间不能有任何长导线。这也是垂直供电能赢的根本原因。
这三个约束叠加在一起,就框死了所有供电架构的基本骨架:高压段做隔离、中压段做缓冲、低压段做紧密耦合。
800V机柜内部的三种降压路线
目前业内主要有三条技术路线在打架。我们一条一条拆开看。
第一条路线叫两步走。800V先降到48伏,48伏再降到0.8伏。第一步用隔离式转换器,因为800伏远高于60伏安全阈值。第二步用非隔离式转换器,因为48伏在安全区以内。
这条路线的好处是48伏是成熟生态,市面上有大量现成方案,成本低、供应链稳。坏处是多了中间一整段48伏母线排和对应的转换器,占空间、增重量、降效率。两步转换的总效率大概93%左右,7%的电变成热量。
第二条路线叫一步半。800V直接降到48伏以下的某个电压,比如24伏或12伏,然后再降到0.8伏。第一步仍然是隔离式,但输出电压选在48伏以下。第二步是非隔离式,压差比48伏方案更小,效率更高。
这条路线的好处是省掉了48伏母线排这一段,体积和重量都降了。总效率可以做到95%左右。坏处是12伏或24伏不是数据中心的标准电压,电源模块、连接器、保护电路都得重新设计,供应链不成熟,初期成本高。
第三条路线叫真一步。800V直接降到0.8伏,中间不经过任何中间电压。这需要一种叫矩阵变压器的黑科技。说白了就是把很多个小变压器拼在一起,每个处理一小部分功率,合起来就能扛住800伏到0.8伏的超大压差。
这条路线的好处是转换级数最少,理论效率上限最高,可以做到97%以上。坏处是技术太难了。矩阵变压器需要极高的制造精度,散热也难做,动态响应速度也堪忧。目前只有两三家公司在实验室里做出来了,离量产还有距离。
这三条路线目前在市场上都在跑。两步走最成熟,英伟达当前的Kyber机柜用的就是这种方案,800V转48V的电源模块放在机柜旁边的侧车里面,不占主柜空间。一步半正在起来,特斯拉的Dojo超级计算机用的就是这种思路。真一步还在实验室,三到五年内可能进入量产。
垂直供电是终点但路要分步走
把思路再往前推一步。不管你用两步走还是一步半,最终都要解决一个问题:电从母线排送到芯片的那最后几厘米怎么走。
传统做法是把电压调节模块放在芯片旁边,中间通过PCB板上的铜箔走线连接。铜箔很薄,电阻不小,大电流下压降明显。而且PCB板上的走线会产生寄生电感和寄生电容,干扰芯片的动态响应。
垂直供电的做法是完全颠覆性的。把电压调节模块拆成两部分,一部分是电感器和电容器,直接埋进芯片封装基板里面,或者干脆做到芯片的硅衬底上。另一部分是控制器和驱动器,放在芯片正下方的母板上。这样电从母板垂直往上走几毫米就进了芯片,不走任何水平方向的PCB走线。
这样做的好处有三个。第一是供电距离极短,压降几乎可以忽略。第二是寄生参数极小,动态响应极快,芯片电流跳变的时候电压不会掉。第三是散热路径短,热量直接通过芯片封装散出去,不需要额外风扇。
垂直供电的代价是制造工艺极其复杂。把电感器和电容器塞进封装基板,需要多层陶瓷工艺和磁芯材料集成,良率低、成本高。目前只有英特尔在PC处理器上量产过类似技术,数据中心级别的超大功率垂直供电还没人真正做出来。
但方向是明确的。只要电压转换级数继续减少、供电距离继续缩短,最后必然走到垂直供电这条路上。这就像光模块最终必然走向共封装光学一样,物理规律逼着你这么做。
谁输谁赢已经能看到轮廓
把上面的技术路线图映射到产业链上,输家和赢家就很清楚了。
输家是那些做中间级转换器的公司。不管是48伏转12伏的中间总线转换器,还是12伏转0.8伏的传统电压调节模块,只要两步走变成一步半或者真一步,这些中间环节就消失了。这些公司要么转型做更高电压的产品,要么市场份额被挤压。
赢家有两类。
第一类是高压隔离转换器厂商。不管两步走还是一步半,第一步800伏转中间电压都是隔离式,都需要高压变压器、高压功率MOSFET、高压栅极驱动器。这些器件的技术门槛高、毛利高,而且随着机柜功率从600千瓦往1.2兆瓦甚至2.4兆瓦走,需求只会越来越大。安森美、英飞凌、德州仪器这些老牌功率半导体厂会吃下这块增量。
第二类是垂直供电方案商。一旦垂直供电从实验室走向量产,整个电压调节模块的市场格局会重洗。传统的外挂式VRM模块会被集成式垂直供电方案取代。谁先做出低成本、高可靠、可量产的垂直供电方案,谁就能吃掉GPU供电这块最肥的肉。目前看,台积电的集成无源器件平台、英特尔的封装嵌入式电感技术、以及几家初创公司的磁芯集成方案,都在这个方向上狂奔。
还有一个隐性赢家是铜供应商。别看高压供电把铜用量降下来了,那是指机柜内部的铜排。整个数据中心层面,高压直流配电需要大量粗电缆从变电站拉到机柜,这部分铜用量反而会涨。而且全球电网升级、电动车充电桩建设都在抢铜,铜价中长期看涨。手里有铜矿的公司躺着赚钱。
最后说一句人话。AI算力的瓶颈正在从芯片制造往供电和散热转移。这是物理规律决定的,谁也没法绕过。看懂供电架构的演变路线,就能提前看到哪些公司会死、哪些公司会活、哪些公司会暴富。