两相冷却让单机柜突破一百万瓦功耗
先给你一个总画面:大家平时家里的电暖器,开最大档也就两千瓦。一个普通机房机柜,以前能扛个十千瓦、二十千瓦就算很能打了。但现在的AI显卡,一张就能吃掉两三千瓦。你如果在一个机柜里塞进几十上百张这种猛卡,总功率轻轻松松破一百万瓦。一百万瓦什么概念?相当于同时开五百台两千瓦的电暖器。那个热量如果不用变态级的手段搬走,几秒钟就能把机柜烧成铁疙瘩。
我们团队搞了一套方案,核心就一句话:让冷媒在机柜里不断沸腾、冷凝、再循环,利用液体变成蒸汽的时候偷偷带走大量热量。这个手法叫做泵驱两相冷却。我们评估之后敢拍胸脯说:单机柜可以稳定扛住超过一百万瓦的功率密度。
下面我会一步一步把机柜怎么拼、管路怎么改、冷媒怎么分均匀、电源和网线怎么绕开烫手区域,全给你拆开讲清楚。
热量从显卡跑到冷媒要靠沸腾,沸腾比单纯流水厉害几十倍
先回到最根子上。你拿一张显卡,它屁股后面就是一块发热片,专业叫GPU芯片。芯片热了就得把热量传走。老办法是用一块铜板贴着芯片,铜板里面开很多小水槽,让水流过去把热带走。这就好比用冷水冲一块烫铁。水本身能带走热量,但水变成蒸汽的时候偷走的热量更多。烧过开水的人都知道,一壶水要烧好久才会滚,滚起来以后蒸汽直喷,那个蒸汽里藏的能量大得惊人。
我们用的两相技术,就是把“液态冷媒”送进跟芯片接触的小槽道里。冷媒一碰到烫手的芯片,立刻沸腾变成蒸汽。蒸汽夹着巨大的热量跑出去,跑到冷凝器那里再变回液体,液体再被泵送回去继续吸热。这个沸腾吸热的过程,每公斤冷媒带走的热量是单相水循环的五到十倍以上。也就是说,你用同样粗的管子,两相方案能搬走多得多的热量。这个结论是下一步选管路和泵的根据:既然单位冷媒搬运能力强,那管路就不用搞得太粗,但必须保证液体能稳定沸腾,不能出现干烧。
实际我们见过好多翻车案例,就是冷媒流量没给够,或者分布不均匀,结果部分芯片上面液体提前全烧成了蒸汽,后面光有蒸汽没有液体,那块芯片就直接过热降频甚至冒烟。所以我们要牢牢记住:沸腾是好的,但必须保证每一块芯片都有新鲜液体不断补上。
单张显卡热到2.5千瓦,一个托盘塞八张就是20千瓦,堆五十层就奔着一百万瓦去
现在我们把目光从原理移到真实设备上。我们用的GPU发热片,每张的发热功率是2.5千瓦。你听着可能觉得还好,就是一个大电磁炉的功率。但是我们把八张这样的卡塞进一个托盘里,一个托盘就是8乘以2.5,得20千瓦。这个托盘的厚度只有1U。1U多高?大概4.5厘米,比一包烟立起来高一点。在这么扁的空间里,要同时伺候八张猛卡,还得让冷媒均匀流过每一张卡下面的小槽道。
托盘一共做五十个,一层一层摞进一个标准的52U机柜里面。52U就是52个这种4.5厘米高的位置,刨去顶部风扇和管路占掉一点点,刚好塞进五十层托盘。五十个托盘每个20千瓦,加一块刚好一百万瓦。百万瓦就是这么堆出来的。这个数字听起来吓人,但你把它拆成五十份,每份20千瓦,心里就踏实了很多。我们下一章要解决的就是:怎么把冷媒均匀分给这五十层,还不能让任何一层因为流量不均而烧掉。
有一个特别搞笑的比喻。你去食堂打饭,一个窗口给五十个人打菜。如果打菜的勺子忽大忽小,前面的人打多了,后面的人就只能舔盘子。冷媒分配也是这个理。我们设计了一个特别的分配管路,就像食堂里先打到一个大盆里搅匀,再分到每个托盘,保证每层拿到的冷媒量差不多。
供液管和回气管的粗细决定能不能喂饱五十层,我们用了两寸和三寸半
前面说了,我们有五十层托盘,每层要送进去足够的液体冷媒,同时要把产生的蒸汽及时抽走。液体是从一个叫“供液总管”的粗管子流下来的。我们选的供液总管直径是两英寸。为什么是两寸?算过账。液体密度大、体积小,两寸的管子足够让每层托盘拿到每分钟好几升的流量。蒸汽就不一样了,蒸汽体积比液体大几十倍甚至上百倍,因为同样质量的冷媒变成蒸汽后,体积剧烈膨胀。所以回蒸汽的那根总管必须更粗,我们用了三寸半。
这里有个形象的画面。供液总管像一根主水管,从底部往上送液体。每个托盘的位置开一个小口,接一个快插接头,液体流进托盘后先分给八张卡,在每张卡底下的蒸发器里沸腾变成蒸汽。蒸汽再汇合到一根较细的收集管,然后统一送进那根三寸半的回气总管,往上跑到机柜顶部的冷凝器。冷凝器再把蒸汽变回液体,流回储液罐,然后用泵重新打回供液总管。
整套东西就是一个循环:液态下去,蒸汽上来,冷凝后再下去。如果你不把回气管做得足够粗,蒸汽会在管路里堵车,压力升高。压力一高,冷媒沸点就变高,本来五十度就能沸腾,现在可能要七十度才滚。芯片温度就被迫往上飙。所以我们宁可多花点空间给回气管,也不能让它憋着。现实改装中好多兄弟因为机柜后面空间不够,把回气管压扁或者选细了,结果一跑大负载就过热。我们这个三寸半是踩过坑才定下来的。
改装两大步:重新算快插和流量分配阀的尺寸,再把冷媒调均匀
前面那些管子、托盘、显卡都摆好了,但实际跑起来会出两个大问题。第一是连接件不够用。每个托盘和总管之间需要快速断开接头,方便你把托盘抽出来换显卡。这个接头叫QD,快插接头。我们之前的方案用的是小一号的接头,结果流量不够,高功率下托盘里的冷媒供不应求,部分芯片干烧。第二个问题是冷媒在每层内部,八张卡之间也会分不均匀。有的卡分到的液体多,温度很低;有的卡分到的液体少,很快就过热。
所以改装的第一步是把所有快插接头换大一号,同时把托盘入口的流量限制器重新配。每个托盘入口那里有一个叫流量调节阀的东西,就像每个宿舍楼门口的水表阀门。我们把这个阀门的开度调成一致,让每层进来的总流量大致相等。但这还不够,因为八张卡的管路长短不一,离入口近的卡容易抢到更多液体。我们改用一个叫“平衡孔板”的小零件,每张卡前面装一个相同直径的细孔,强迫每一路流阻差不多。这样液体就老实了,不管离入口远还是近,流过的量都差不多。
改装之后我们在测试台上跑了一整天。八张卡全开2.5千瓦,八路的温度差异不超过三度。这就叫均流成功。均流失败的时候,有的卡才六十度,有的卡已经九十多度在降频边缘挣扎。均流成功后,所有卡基本都在七十五度上下,大家公平发热。
实施中碰到的三个坑爹难题:快插买不到、供电像八爪鱼、网线怕烫
图纸上画得再漂亮,一到买零件就傻眼。
第一个坑:大流量的快插接头,尤其是适合两相冷媒的型号,市面上几乎没有现货。厂家的样本上写着能过多少流量,但你真下订单,人家说交期四个月。我们急用又不能等,最后是找了一家做液压快插的厂,让他们改密封圈材质,用乙丙橡胶替代原来的丁腈橡胶,才勉强凑合用。如果你自己动手搞类似项目,一定提前半年把这些接头定好,不然整个项目就卡在一个小铜疙瘩上。
第二个坑:供电。五十个托盘,每个托盘20千瓦,总功率一百万瓦。一百万瓦从配电房拉到机柜,需要非常粗的电缆。我们用的还是高压直流供电,四百八十伏直流,以减少线损。但问题在于,每个托盘要单独接线,五十层意味着五十对电源线。这些线缆从机柜顶部一直捅到底部,又粗又硬,而且会挡住气流和维修通道。我们最后是用了母线排,就是一条铜排从上到下,每层用一个分支插头取电。这样省了很多线,但铜排本身很重,安装的时候两个人抬都费劲。
第三个坑:网线。现在的AI训练要用高速网络,每张卡可能连一个四百G的网卡。网线或者光模块也怕热。你把光模块放在六十多度的出风区域,寿命会急剧缩短。我们不得不把网络交换机和光模块放在机柜的中部,用专门的冷风道去吹。而且网线布线必须避开回气总管附近的高温区域,不然塑料外皮会烤软。这块没有太好的办法,就是老老实实用长光纤,绕远路走冷区。每次拔插托盘的时候,还要先把网线拔掉,极其麻烦。大家开玩笑说,这哪里是插显卡,简直是在给心脏搭桥。
冷媒分不均匀的话再多泵也白搭,我们用分配器和毛细管强迫液体认路
这个问题太要命了,我必须再单独拎出来多说几句。前面提到的平衡孔板很好用,但还有一个更流氓的办法:每个托盘入口先接一个小型分配器,分配器出来接八根长度完全一样的毛细管,每根毛细管再连到一块显卡。毛细管直径很细,零点几毫米,流阻很大。因为流阻大,管路长度的微小差异就可以忽略,所有显卡拿到的流量就几乎一样。
这个方法的代价是压力损失变大。原本只需要两公斤压力的泵,现在可能需要三公斤半。但好处极其明显:五十层托盘,四百块显卡,最热和最冷的显卡温差可以控制在五度以内。我们测试的时候,有一层托盘因为装配问题,有一根毛细管被压扁了一点点,结果那块卡马上温度高八度,立刻就发现了。这说明毛细管对故障也很敏感,反而是好事,你可以迅速定位哪一路堵了。
如果你自己搞类似方案,记得在每层托盘的出气口也装一个温度传感器。通过比较每层的出气温度和进液温度,你能算出这层到底带走了多少热量。如果某层温差突然变小,说明这层卡降频了或者冷媒少了。这套监控系统比单纯的芯片温度报警要灵敏得多。
整个系统跑通后收益爆炸,但前提是你受得了定制零件的折磨
我们把五十层托盘全部装进机柜,通上冷媒和电,跑了一个压力测试。所有四百块显卡同时满载跑AI训练模型,总功率稳定在一百零二万瓦左右。机柜顶部的冷凝器排出的热风大概四十五度,冷媒循环泵的耗电只有总功率的百分之三。也就是说,我们用很少的额外电力,搬走了几乎所有的芯片热量。机柜后部出风区域虽然热,但没有任何一个点超过六十度,网线和光模块都扛得住。
但是你要问我这事简单吗?我会说非常折腾。从定制快插接头开始,每一批零件都要等好几个星期。电源母线排的设计改了四版才不挡住托盘抽插。网线走线图画了十几个版本,最后用的是光缆,因为光纤完全不怕电磁干扰,而且比铜缆细很多,容易穿。每层托盘插进去以后,还要用内窥镜检查里面的毛细管有没有弯折,不然就要重新拉出来返工。
如果你是一个机房运维的老手,平时只搞过几十千瓦的风冷机柜,突然要上一百万瓦的两相方案,建议你先拿两三个托盘做小规模验证,把快插和均流手法练熟,再扩大规模。别一上来就堆五十层,否则翻车的时候,四百张卡一起过热报警,那个噪音和味道会让你做噩梦。
最后给一个成本参考和收益对比:百万瓦机柜值不值得搞
你可能会问,搞这么复杂图什么?图省电费吗?不完全是。最大的好处是你可以在同样面积的地板里塞进更多计算能力。原来你五六个机柜才能装下的AI算力,现在一个机柜就搞定。虽然这个机柜的造价大概是普通风冷机柜的三倍,但节省出来的空间和配套的空调、配电、布线费用,综合算下来其实是赚的。
拿一百万瓦举个例子。风冷方案要达到这个散热能力,你需要四台大型精密空调,还得配很粗的风管,而且机柜之间的间距要很大,不然热风短路。占地面积至少是两相方案的四倍。地皮和基建在数据中心里非常贵。另外两相方案允许你把机柜出风温度提高到四十五度以上,这样自然冷却的时间变长,整年的空调耗电大大减少。我们实测相比传统风冷,整体电费节省了大约百分之三十。
但是记住,省钱的前提是你有足够的专业团队来维护这套系统。冷媒要定期检查纯度,快插接头用久了会磨损泄漏,泵的密封圈需要更换。这些运维工作比风冷复杂得多。如果你是一家小公司,只有两个运维老哥,那还是老老实实先搞液冷或者风冷。如果你是大型云厂商或者超算中心,有专门的液体冷却工程师,那两相百万瓦机柜就是你值得冲的方向。
套用我们工程师内部的一句玩笑话:搞两相冷却就像养一只哈士奇,拆家的时候你想把它炖了,但它聪明起来又让你觉得真香。只要你能忍受定制零件漫长的交期和调均流时无数次拔插托盘的痛苦,这一百万瓦单机柜的成就,你也可以拿到手。
A股相关概念
在A股市场上,这就变成了一个挺有意思的投资线索。把相关的上下游公司分成了三拨人:一拨是搞“心脏”和“血管”的(核心部件),一拨是搞“骨架”和“水管”的(基础设施),还有一拨是准备“干票大的”(技术布局)。
1、核心部件与系统集成:产业链的心脏
这一块的公司是给整个冷却系统造“心脏”和“大脑”的。没有他们,冷媒根本没法在机柜里欢快地“沸腾-冷凝-再沸腾”。
申菱环境是这里面比较能打的一个。这家公司很早就开始搞数据中心液冷了,手里握着70多项液冷专利,什么冷板式、浸没式、相变式都能做,在智算液冷市场占有率排第一。它就像个全能选手,既能造枪又能造炮,而且跟华为、字节、腾讯这些大客户关系很铁,海外市场也在猛冲。
高澜股份是另一个关键角色。它之前主要搞大功率电力电子散热,现在把火力对准了AI大功率液冷和两相冷板这些高壁垒技术。今年3月还公布了一项关于大功率相变冷板的发明专利,专门解决气泡堵路的痛点。虽然还没大规模量产,但技术储备已经到位了。
真视通走的是“产学研”路子。它投资了北航袁卫星教授的团队,把航空航天用的“泵驱两相液冷技术”下放到智算中心。这招挺聪明的,把天上用的技术拿来给地上的AI散热,属于降维打击。而且人家已经有中科芯的项目中标了,不是光说不练。
罗曼股份也掺和进来了。它旗下的武桐高新搞出了“泵驱两相液冷方案”,号称能做到100%全液冷,还通过了TUV防泄漏认证。看来这家原来做景观照明的公司,是铁了心要在AI散热领域分一杯羹。
2、基础设施与精密制造:产业链的骨架
这部分公司不直接搞两相系统,但机柜、管路、接头这些“身体骨架”离了他们可不行。
万马科技专注做机柜。它的微模块机柜能把供电、散热、承重、布线全给你集成好。你设计的那个百万瓦机柜,里面50层托盘、各种粗管子、一大把电源线,都得靠这种高品质的“房子”给装起来。
达瑞电子最近通过收购切入了这个赛道。它花了7000万控股了一家叫东莞运宏的公司,这家公司专门做风冷和液冷的核心部件,比如水冷板、散热模组这些。客户里还有富士康、宝德这些大厂,底子不错。
鼎通科技、中航光电这些连接器龙头也被机构盯上了。在两相冷却系统里,快插接头(QD)是瓶颈中的瓶颈,既要流量大、又要耐高压、还不能泄漏。能做高可靠性的流体连接器,本身就是一门好生意。
3、相关制冷剂与热管理:技术生态的土壤
两相冷却靠的是冷媒“沸腾”来搬热量,那冷媒本身和相关的热管理材料就是这场戏的“演员”。
巨化股份、永太科技这些公司是氟化工的龙头,而很多两相冷媒都是氟化工产品。如果两相冷却大规模铺开,对高性能冷媒的需求肯定会涨。
新宙邦在电容器化学品和电子化学品方面很强,它的产品也能用在热管理领域。虽然现在可能没直接供货给两相冷却,但产业链上游肯定绕不开它。