苹果OpenELM：开源小语言模型

OpenELM：具有开源训练和推理框架的高效语言模型系列

OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数，从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。

我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集，总计约1.8 万亿个token。使用这些数据集之前，请检查许可协议和条款。