Mistral AI 发布了开源MoE专家混合模型

开源人工智能初创公司 Mistral AI 发布了由 8 名 7B 专家组成的 MoE 模型。
有趣的是：

- 以 87 GB magnet种子发布
- 似乎是 GPT-4 的缩小版
- 在 X 上发布，没有新闻稿，也拒绝详细说明

什么是专家混合 (MoE)？
专家混合 (MoE) 是大模型中使用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或“专家”处理。以下是一个简明的细分：

1. 专家层：这些是较小的神经网络，经过训练，在特定领域具有很高的技能。每个专家处理相同的输入，但处理方式与其独特的专业相一致。

2.门控网络：这是MoE架构的决策者。它评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数，然后使用这些分数来确定每个专家在任务中的参与程度。这些组件共同确保正确的专家处理正确的任务。门控网络有效地将每个输入路由给最合适的专家，而专家则专注于他们的特定优势领域。这种协作培训带来了更加通用和强大的整体模型。

有关 Mistral 新 MoE 的详细信息（来自 Reddit）

对于每个token的推理，仅使用 2 名专家。该信息可以从模型元数据中得出：{“dim”：4096，“n_layers”：32，“head_dim”：128，“hidden_dim”：14336，“n_heads”：32，“n_kv_heads”：8，“norm_eps” : 1e-05, "vocab_size": 32000, "moe": {"num_experts_per_tok": 2, "num_experts": 8}

与 GPT-4 的比较
Mistral 8x7B 使用与 GPT-4 非常相似的架构，但按比例缩小：

- 总共 8 个专家，而不是 16 个（减少 2 倍）
- 每个专家 7B 个参数，而不是 166B（减少 24 倍）
- 总参数 42B（估计），而不是 1.8T（减少 42 倍）
- 与原始 GPT-4 相同的 32K 上下文