华为搞了个新玩意儿叫AI加速器和机架设计,现在特别火。咱们来看看中国最新最牛的自研产品——用昇腾910C芯片做的CloudMatrix 384。这东西直接对标英伟达的GB200 NVL72,有些地方比老黄的机架方案还厉害。
它的优势不只是芯片强,整个系统从网络、光模块到软件都创新。
虽然昇腾芯片能在中芯国际生产,但其实是个"全球混血儿":内存是韩国的,主要芯片是台积电做的,生产设备来自美日荷。咱们会分析中国自主生产的可能性、怎么绕过出口限制,以及为啥美国要盯紧这些新技术来卡中国AI脖子。华为芯片确实落后一代,但整套系统反而比英伟达AMD在售产品领先。那这个CloudMatrix 384到底啥配置?
简单说就是384块910C芯片用全网状结构连起来。秘诀就是:用五倍数量的芯片,弥补单个性能只有英伟达Blackwell三分之一的劣势。现在整套系统能提供300 PFLOP的BF16算力,几乎是GB200 NVL72的两倍!内存总量多3.6倍,带宽高2.1倍,这下中国真有超越英伟达的AI系统了。
更妙的是,CM384特别适合中国国情:能用国产网络设备、有防故障的软件,而且产量上来后还能扩更大规模。
缺点是耗电大:整机功耗是GB200的3.9倍,每单位算力耗电多2.3倍,内存带宽单位耗电多1.8倍,内存容量单位耗电多1.1倍。但中国不缺电,只缺芯片。欧美老觉得AI受电力限制,中国正好相反。过去十年欧美忙着把煤电厂改成天然气和新能源,中国却在疯狂建电厂——现在中国新增的发电量相当于美国全国电网总量!
既然电管够,牺牲点能耗换扩展性就合理。CM384设计时连机架外限制都考虑了,制约中国AI发展的真不只是电力。华为这方案还有好多升级空间。那中国到底能产多少910C和CM384呢?
很多人误以为910C是纯国产,其实只是设计在国内。关键部件都靠进口:三星的高端内存、台积电的晶圆、美日荷的设备。中芯国际虽然能造7nm芯片,但910B/910C基本都是台积电做的——美国买的拆机样品全是台积电版本。华为还通过"盛合晶微"买了5亿美元台积电7nm晶圆绕开制裁。
更麻烦的是高带宽内存(HBM)全依赖韩国三星。不过三星已经偷偷帮华为囤了1300万组HBM,够造160万块910C芯片。现在禁运只针对裸装HBM,带HBM的成品芯片还能合法出口。有个叫"高升电子"的三星代理商就在玩套路:把HBM和普通芯片打包成"系统封装"运到中国,其实很容易拆出HBM重复利用——他们可能用了特别脆的低温焊锡,一碰就开。
国内芯片厂也在进步。中芯国际和长鑫存储拿到几百亿设备,虽然良品率不行,但产能一直在涨。今年中芯每月能产5万片晶圆,要是良率上去,910C产量还能暴增。台积电已经提供了290万片晶圆,够2024-2025年生产80万块910B和105万块910C。如果美国不卡死HBM、光刻胶这些关键材料,中国产能会涨得更快。
最后说说CM384结构:16个机架组成,其中12个装GPU(每架32块),中间4个是扩展交换机。华为为了连这么多GPU,用了大量光模块——整个系统要6912个400G光器件,大部分都用在扩展网络上。这方案很像英伟达2022年展示过的DGX H100 NVL256"游侠"平台,但那玩意因为太贵(要用两层网络和无数光模块)最后没量产。