盘古Pro MoE是专门为昇腾300I双胞胎和800I A2特调优化!
盘古Pro MoE是华为于2025年5月28日发布的大语言模型,其基于创新的分组混合专家模型(Mixture of Grouped Experts, MoGE) 架构,在专家选择阶段对专家进行分组,并约束 token 在每个组内激活等量专家,从而实现专家负载均衡,显著提升模型在昇腾平台的部署效率。
盘古Pro MoE总参数量720亿、激活参数量160亿,在中英文和逻辑推理任务的多个权威基准上表现卓越,SuperCLUE 2025 年 5 月排行榜上,盘古 Pro MoE 在千亿参数量以内的模型中并列国内第一。
盘古Pro莫伊的配置通过广泛的系统仿真研究针对昇腾Ascend 300 I Duo和800 I A2进行了优化。盘古Pro莫伊的推理性能达到了每张卡1148个tokens/s, 通过推测加速可以进一步提升到每张卡1528个tokens/s,优于可比的32 B和72 B Dense机型。
在昇腾Ascend 300 I Duo上实现了出色的模型推理性价比。Ascend NPU能够通过大规模并行化训练Pangu Pro莫伊,使其成为100 B以下总参数类中的领先模型,性能优于GLM-Z1- 32 B和Qwen 3 - 32 B等著名开源模型。
盘古Pro MoE推理建议使用1台(8卡)Atlas 800I A2(64G)服务器(基于BF16权重)或使用1台(8卡)Atlas 300I Duo服务器(基于BF16权重)。
网友辣评:
1、我敢肯定,3年后,华为的型号比其他人领先1年。
2、它不是Apache或MIT许可的?
它是免费的,除了不能在欧盟使用它,也许是为了避免欧盟人工智能法案的麻烦。
3、他们家的基础款AI,居然比前几天刚发布的'浑源80B老A13B'这些大佬还能打!更骚的是,他们家带说明书(指令模型)的版本还会做数学题,又跟浑源80B老A13B平起平坐
4、别看盘古Pro MoE模型长得像英伟达家的崽,其实压根没绑定显卡架构!
人家走的是端水大师路线——既要自家平台吃肉,也得让别家喝口汤。
70B参数的怪兽性能居然和32B压缩版差不多?
谜底在这:他们用的处理器是48GB内存/400GB带宽的奇葩配置!和咱们游戏佬的3090显卡(24GB/1000GB)完全反着来——人家要的是带宽不够,数量来凑!
简直是分布式推理的省钱神器!要是B60系列价格能打。简直就是网吧老板们的梦中情‘卡’——毕竟这种低带宽显卡组团打怪最划算!不过说来说去...(突然冷漠)这货从头发丝到脚趾甲都写着‘华为全家桶推广计划’就对了。
总结:这模型很酷但很华为!