OpenELM:具有开源训练和推理框架的高效语言模型系列
OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。
我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集,总计约1.8 万亿个token。使用这些数据集之前,请检查许可协议和条款。
各型号的详细信息请参见下表:
- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-指令
- OpenELM-450M-指令
- OpenELM-1_1B-指令
- OpenELM-3B-指令
优秀微型模型的竞赛已经开始!
比较:
- 苹果 OpenELM 3B:24.80 MMLU
- 微软 Phi-3-mini 3.8b:68.8 MMLU
比较:
- OpenELM-3b-instruct: 76.87 HellaSwag, 67.96 WinoGrande,
- Phi-3-mini-instruct: 76.7 HellaSwag, 70.8 WinoGrande