华为的王牌不是单颗芯片,而是“千芯合体”的超级大脑!
朋友们,别再盯着单颗AI芯片打转了!真正的战场早就转移到“系统级对决”——华为这次玩的是“超算集群”战略,直接把成千上万颗昇腾芯片像神经元一样编织成一张算力巨网!这不是堆料,这是重构AI时代的计算范式!
根据内部流出的路线图,华为现在的主力是Atlas 900 A3 SuperPod,由384颗昇腾910C芯片组成,今年三月已正式商用。但这只是序章!真正的高潮在2026年Q4——Atlas 950 SuperPod将搭载8192颗950DT芯片,支持8个FP8和16个FP4精度的混合算力。
而等到2027年Q4,终极形态Atlas 960 SuperPod将集结15488颗960芯片,算力直接冲上30个FP8和60个FP4!更惊人的是,其内存容量高达4460TB,节点间互联带宽飙到34.1PB/s——这意味着整个集群内部的数据流动速度,比英伟达Rubin架构的NVLink 144快整整62倍!
在中国西部,依托风光水等可再生能源基地和特高压输电网络,这种“算力巨兽”完全可以24小时满负荷狂奔,功耗?根本不是瓶颈!
英伟达还在单点突破,华为已开启“蜂群战术”!
别被英伟达的芯片命名绕晕了!他们现在的GB300 NVL72 Blackwell Ultra确实精致,72颗B300芯片集成在一个机柜里,算力0.18 FP16、0.36 FP8、1.08 FP4,看起来很优雅。
但问题来了——它只是“一个单元”。在这个螺蛳壳里做足了道场,功耗、性能都被拿捏,这些都是因为他们有在螺蛳壳里操作的光刻机,在AI没有成为经济主导产业时,芯片半导体只能算是配套高科技,新能源车代表消费,是房产经济另外一大主力,共同构成GDP三驾马车,但是新能源车、房地产两个都不需要依赖一种在螺蛳壳里做出的道场。如果AI成为类似新能源车这样的世界经济主导产业,它还会被局限在几个螺蛳壳里吗?软件行业从互联网时代开启的成熟集群方案是摆设吗?这就是用魔法打败魔法。
华为玩的是“千群并发”就是这么一套新魔法:一个SuperPod不是一台机器,而是一个可横向扩展的算力基座。
到2027年,Atlas 960单集群就能提供相当于6.7个英伟达NVLink 144集群的FP8算力,内存容量更是15倍!这差距不是靠工艺追的,是靠大的架构视野赢的。尤其在中国,国家超算中心、东数西算工程、一体化大数据中心……这些国家级基建早已为超大规模集群铺好电力与网络底座。反观,美国电力成为瓶颈,功耗才是资本第一考虑,因为资本是为了利润,功耗越大,成本越高。
华为的“中国式解法”:用系统工程弥补生态短板!
华为并不打算在单颗芯片层面和英伟达死磕,而是把战场直接拉到集群层级,这不是技术自信,而是工程现实下的战略选择。单芯片算力、制程、能效、生态,华为在可预见时间内都很难追平英伟达,所以干脆绕过芯片对芯片的比较,用规模堆叠、系统设计和光互连,把对比单位直接抬升到几百颗、上万颗芯片的整体系统。
在这个逻辑下,华为给出的不是一颗NPU能打多少TFLOPS,而是一个Atlas SuperPod能给你多少FP8、FP4的总算力,多少TB的HBM容量,多少PB每秒的带宽。这种叙事方式本身就说明了目标客户不是算法研究员,而是需要交付算力指标的大型机构。
必须承认,昇腾芯片在软件生态上好像落后于CUDA。其实不然,因为英伟达主打通用,显卡、比特币、AI智能都要兼顾,软件必须学习windows操作系统,这样用户多好像建立了生态,其实这种生态是脆弱的,如果AI智能打败了显卡、比特币等小众市场,成为GDP国家核心竞争力,专业专用才是发展之道。
华为聪明就聪明在——它不硬刚生态,而是用“全栈自研+集群优化”绕开所谓“通用性”。正如谷歌TPU一直自己芯片自家用一样。
MindSpore框架深度适配昇腾集群,CANN中间件对多芯通信做了极致优化,甚至把模型并行、流水线调度、容错机制都集成到SuperPod的固件层。
这意味着用户不需要像用英伟达那样操心NVLink拓扑或NCCL调优,开箱即用。
更重要的是,中国本土大模型公司、国有云服务商、科研机构在政策引导下已大规模接入昇腾集群。比如鹏城云脑II、武汉超算中心、北京智源研究院……这些关键节点全跑在华为堆叠的算力底座上。
一旦中国10万+开发者沉淀在昇腾体系,所谓CUDA的护城河也会被慢慢填平。
真正的瓶颈不在算力,而在连接
系统性能从来不只是算力总和,这是高性能计算领域反复被验证的铁律。几百颗芯片你还能用铜缆,几千颗芯片开始就必须上光互连。华为的路线选择非常激进,几乎是全光学scale up,把节点内、节点间的互连都压在光模块和光交换上。
从工程角度看,这条路不是不能走,而是极其昂贵,也极其复杂。光互连在延迟、功耗、调度复杂度上的挑战,远高于成熟的NVLink铜缆体系。英伟达之所以还能坚持铜为主,是因为它的单芯片性能和封装密度允许在机柜级别完成scale up,而华为的Ascend NPU体积更大,被迫更早进入光互连时代。
真实对比:一机柜换七机柜:
一个英伟达B300机柜的算力,需要大约七个Ascend 910C机柜才能匹配。这是基于实际功耗、密度和有效算力的工程估算。
从数量看,好像英伟达以一当七,那是你的注意力被集中到螺蛳壳里去了,没有更宏大视野。
没错,同样的训练任务,华为方案需要更大的机房、更复杂的布线、更高的冷却压力和更高的长期运维成本。初步一看好像要算经济账,其实更大机房增加不了多少成本,增加电力也是使用消耗更多新能源。
这是没有计算英伟达为了追求通用性而牺牲的性能,一个英伟达B300机柜的算力因为通用性丧失30%的算力、无用功,而华为机架则是满负荷性能。
有人说:谷歌的Ironwood TPU Pod在FP8精度下,Ironwood集群可以做到42 exaflops,而集群级功耗效率只有0.23瓦每TFLOP。
这说明什么?这说明你还是在卖芯片,而不是卖算力,现在算力不是拼flops了,AI叙事游戏已从谁拥有最快的芯片变成了谁拥有最高效的工厂!
极客辣评
所有ASIC都必须通过SuperPod级别的集群来和英伟达竞争 !
华为看清了现实:在先进制程受限下,单芯性能追平英伟达至少还需几年年。但机架集群算力不是拼单芯,是拼系统集成、网络拓扑、软件协同和国家基建。
到2027年,当Atlas 960 SuperPod真正落地,全球AI算力格局或将迎来历史性拐点。不是英伟达跌落神坛,而是中国找到了自己的超车路径——不是更快的马,而是一列全自主的机架算力磁悬浮列车。
在如今AI大模型从强化学习向持续学习的推理推进过程中,过去大训练大实验时代即将结束,因为在AI大模型没有涌现出智能时,还是表现得很弱智时,人们不可能像华为那样大手笔构建万卡集群,只能买几块卡插在服务器上做实验,当发现算力对智能涌现有正面作用时,匆匆忙忙赶快多买显卡,但是这一时代已经尘埃落地了,2026年以后时推理为王,延迟为王,个性化计算为王,不需要集中一起大练兵了、开大会了,而是干部们已经下到人民群众中一对一服务了。
这种分布式分散模式必然对英伟达高度集中到螺蛳壳里做道场形成冲击,正如以前上海人十几口拥挤在十多平方房子,每个人只能螺蛳壳里做道场,好像是斤斤计较,其实是生存空间狭窄导致,现在拆迁一家几套房,集中的螺蛳壳成了分布式大房,人们心情也越来越畅快了。这种空间模式的伸缩扩展对芯片行业形成的冲击必然前所未有,甚至淘汰芯片行业一批老登,让他们玩弄关税 限购等白手套去,因为这是老登们最后一蹬。