YAYI2-30B：中科闻歌开源大模型

YAYI 2是中科闻歌研发的开源大语言模型，包括Base和Chat版本，参数规模为30B。

YAYI2-30B是基于Transformer的大语言模型，经过了2.65万亿Tokens的高质量、多语言语料的预训练。采用了百万级指令进行微调，以更好地与人类价值观对齐。

YAYI 2在语言理解、学科知识、数学推理、逻辑推理以及代码生成方面表现出了显著的性能提升，评测结果在多个基准数据集上均优异。

1、在2.65T令牌上进行预训练：

2、结构上与LLaMA-2- 30 B（GQA、RoPE、SwigLU）非常相似。

3、他们声称已经将数据集从240 TB过滤到10 TB。Deepseek有一个类似的管道，它表现得非常好。

模型遵循Apache-2.0开源许可，使用需遵循雅意YAYI 2模型社区许可协议。