李开复01-AI/Yi:从头开始训练的大语言模型


这是李开复的AI公司开发的人工智能模型,该公司在不到一年的时间里就获得了 10 亿美元估值。

Yi系列模型是由01.AI的开发人员从头开始训练的大型语言模型。第一个公开版本包含两个双语(英语/中文)基础模型,参数大小为 6B 和 34B。两者都以 4K 序列长度进行训练,并且在推理期间可以扩展到 32K。

基准测试结果显示,Yi-34B 在测量常识推理、阅读理解和数学/代码问题的任务中实现了最先进的性能。

可以对基本模型进行微调。使用说明提供了文本生成和继续培训的示例。

源代码在 Apache 2.0 下获得许可,模型在获得许可的情况下可免费用于学术和商业用途。Yi 许可证是自定义许可证

黑客新闻帖子讨论:

  • 关于“从头开始训练”一词的含义存在争议。一些人认为这不清楚,可能意味着使用了强化学习等新颖的训练方法,而另一些人则认为这是一个适当的描述。
  • 人们对非开源许可证表示担忧,其他人指出,许可证文本与其他最近的人工智能模型许可证类似,并且明确符合其他国家/地区的法律。
  • 虽然这些模型比封闭的要好,但鉴于非标准许可证,将它们作为“开源”发布会产生误导。