华为盘古 Pro MoE：专为昇腾芯片优化的AI模型

#DeepSeek时刻 #AI人工智能指南 #芯片半导体

2025-07-02 1 banq

盘古Pro MoE是专门为昇腾300I双胞胎和800I A2特调优化！

盘古Pro MoE是华为于2025年5月28日发布的大语言模型，其基于创新的分组混合专家模型（Mixture of Grouped Experts, MoGE）架构，在专家选择阶段对专家进行分组，并约束 token 在每个组内激活等量专家，从而实现专家负载均衡，显著提升模型在昇腾平台的部署效率。

盘古Pro MoE总参数量720亿、激活参数量160亿，在中英文和逻辑推理任务的多个权威基准上表现卓越，SuperCLUE 2025 年 5 月排行榜上，盘古 Pro MoE 在千亿参数量以内的模型中并列国内第一。

盘古Pro莫伊的配置通过广泛的系统仿真研究针对昇腾Ascend 300 I Duo和800 I A2进行了优化。盘古Pro莫伊的推理性能达到了每张卡1148个tokens/s, 通过推测加速可以进一步提升到每张卡1528个tokens/s，优于可比的32 B和72 B Dense机型。

在昇腾Ascend 300 I Duo上实现了出色的模型推理性价比。Ascend NPU能够通过大规模并行化训练Pangu Pro莫伊，使其成为100 B以下总参数类中的领先模型，性能优于GLM-Z1- 32 B和Qwen 3 - 32 B等著名开源模型。

盘古Pro MoE推理建议使用1台（8卡）Atlas 800I A2（64G）服务器（基于BF16权重）或使用1台（8卡）Atlas 300I Duo服务器（基于BF16权重）。

网友辣评：
1、我敢肯定，3年后，华为的型号比其他人领先1年。

2、它不是Apache或MIT许可的？
它是免费的，除了不能在欧盟使用它，也许是为了避免欧盟人工智能法案的麻烦。

3、他们家的基础款AI，居然比前几天刚发布的'浑源80B老A13B'这些大佬还能打！更骚的是，他们家带说明书（指令模型）的版本还会做数学题，又跟浑源80B老A13B平起平坐

4、别看盘古Pro MoE模型长得像英伟达家的崽，其实压根没绑定显卡架构！
人家走的是端水大师路线——既要自家平台吃肉，也得让别家喝口汤。
70B参数的怪兽性能居然和32B压缩版差不多？
谜底在这：他们用的处理器是48GB内存/400GB带宽的奇葩配置！和咱们游戏佬的3090显卡（24GB/1000GB）完全反着来——人家要的是带宽不够，数量来凑！

简直是分布式推理的省钱神器！要是B60系列价格能打。简直就是网吧老板们的梦中情‘卡’——毕竟这种低带宽显卡组团打怪最划算！不过说来说去...（突然冷漠）这货从头发丝到脚趾甲都写着‘华为全家桶推广计划’就对了。

总结：这模型很酷但很华为！

华为盘古 Pro MoE：专为昇腾芯片优化的AI模型

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道