通义千问:用于聊天、内容创建等的强大语言模型


阿里开发的Qwen系列,包括Qwen-7B和Qwen-14B,是经过大量多语言数据预训练的强大语言模型。

他们在基准数据集上具有竞争性的表现,可以执行聊天、内容创建、信息提取、摘要、翻译、编码和数学问题解决等任务。

该Github存储库提供了如何开始使用 Qwen 的信息、有关量化模型的详细信息、微调教程、构建演示的说明、有关 Qwen 的工具使用和代码解释的信息以及长上下文理解评估的统计数据。

这些模型在各种基准数据集上的性能优于类似大小的基线模型,但仍落后于 GPT-3.5 和 GPT-4 等模型。

已经针对多达 3 万亿个 token 的多语言数据进行了稳定的预训练,覆盖领域、语言(重点是中文和英文)等,能够实现有竞争力的基准数据集上的性能。此外,我们还有基于SFT和RLHF(尚未发布)的符合人类偏好的聊天模型,能够聊天、创建内容、提取信息、总结、翻译、编码、解决数学问题等,并且能够使用工具,扮演代理,甚至扮演代码解释器等。

此存储库中,点击标题:

  • 快速入门 Qwen,享受简单的推理。
  • 有关量化模型的详细信息,包括使用情况、内存、推理速度。为了进行比较,我们还提供了 BF16 模型的统计数据。
  • 微调教程,包括全参数调优、LoRA 和 Q-LoRA。
  • 构建演示的说明,包括WebUI、CLI演示等。
  • 有关 Qwen 工具使用、代理和代码解释器的信息
  • 长上下文理解评估统计
  • 许可协议