苹果OpenELM:开源小语言模型


OpenELM:具有开源训练和推理框架的高效语言模型系列

OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。

我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集,总计约1.8 万亿个token。使用这些数据集之前,请检查许可协议和条款。

各型号的详细信息请参见下表:

优秀微型模型的竞赛已经开始!
比较:

  • 苹果 OpenELM 3B:24.80 MMLU
  • 微软 Phi-3-mini 3.8b:68.8 MMLU

比较:
  • OpenELM-3b-instruct: 76.87 HellaSwag, 67.96 WinoGrande,
  • Phi-3-mini-instruct: 76.7 HellaSwag, 70.8 WinoGrande