Mistral AI 发布了开源MoE专家混合模型

开源人工智能初创公司 Mistral AI 发布了由 8 名 7B 专家组成的 MoE 模型。
有趣的是:

  • - 以 87 GB magnet种子发布
  • - 似乎是 GPT-4 的缩小版
  • - 在 X 上发布,没有新闻稿,也拒绝详细说明


什么是专家混合 (MoE)?
专家混合 (MoE) 是大模型中使用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或“专家”处理。以下是一个简明的细分:

 1. 专家层:这些是较小的神经网络,经过训练,在特定领域具有很高的技能。每个专家处理相同的输入,但处理方式与其独特的专业相一致。

2.门控网络:这是MoE架构的决策者。它评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数,然后使用这些分数来确定每个专家在任务中的参与程度。这些组件共同确保正确的专家处理正确的任务。门控网络有效地将每个输入路由给最合适的专家,而专家则专注于他们的特定优势领域。这种协作培训带来了更加通用和强大的整体模型。

有关 Mistral 新 MoE 的详细信息(来自 Reddit)

对于每个token的推理,仅使用 2 名专家。该信息可以从模型元数据中得出:{“dim”:4096,“n_layers”:32,“head_dim”:128,“hidden_​​dim”:14336,“n_heads”:32,“n_kv_heads”:8,“norm_eps” : 1e-05, "vocab_size": 32000, "moe": {"num_experts_per_tok": 2, "num_experts": 8}

与 GPT-4 的比较
Mistral 8x7B 使用与 GPT-4 非常相似的架构,但按比例缩小:

  • - 总共 8 个专家,而不是 16 个(减少 2 倍)
  • - 每个专家 7B 个参数,而不是 166B(减少 24 倍)
  • - 总参数 42B(估计),而不是 1.8T(减少 42 倍)
  • - 与原始 GPT-4 相同的 32K 上下文