法国开源Mistral AI挑战ChatGPT

banq

本周一,Mistral AI 公司发布了一个名为 Mixtral 8x7B 的新人工智能语言模型,这是一个具有开放权重的 "专家混合"(MoE)模型,据说在性能上可以真正与 OpenAI 的 GPT-3.5 相媲美。这意味着我们离拥有一个 ChatGPT-3.5 级别的人工智能助手越来越近了,只要实施得当,它就能在我们的设备上自由地本地运行。

总部位于巴黎的 Mistral 公司由 Arthur Mensch、Guillaume Lample 和 Timothée Lacroix 创立,最近在人工智能领域迅速崛起。该公司迅速募集到风险投资,成为法国反开放式人工智能(anti-OpenAI)的代表,倡导性能抢眼的小型模型。

最值得注意的是,与 OpenAI、Anthropic 或谷歌的封闭式人工智能模型相比,Mistral 的模型使用开放权重在本地运行,可以下载和使用,限制较少。(这里的 "权重 "是指代表训练有素的神经网络的计算机文件)。

Mixtral 8x7B 可以处理 32K 标记上下文窗口,并能以法语、德语、西班牙语、意大利语和英语工作。

它的工作原理与 ChatGPT 很相似,可以协助完成合成任务、分析数据、排除软件故障和编写程序。

Mistral 声称,它的性能超过了 Meta 更大的 LLaMA 2 70B(700 亿参数)大型语言模型,而且在某些基准测试中,它的性能达到或超过了 OpenAI 的 GPT-3.5。

Mixtral MoE 模型确实像是一个拐点--一个真正的 GPT-3.5 级模型,可以在 M1 上以 30 token/秒的速度运行。

想象一下,当推理是 100% 免费的,而你的数据留在你的设备上时,现在所有的产品都成为可能。

专家混合
专家混合是什么意思?正如这本出色的《Hugging Face guide 》指南所解释的那样,它指的是一种机器学习模型架构,在这种架构中,门网络将输入数据路由到不同的专业神经网络组件(称为 "专家")进行处理。这样做的好处是,模型训练和推理的效率更高、可扩展性更强,因为每次输入只需激活一个专家子集,与参数数量相当的单体模型相比,可减少计算负荷。

通俗地说,MoE 就像工厂里的专业工人团队("专家"),由智能系统("门网络")决定哪个工人最适合处理每项特定任务。这种设置使整个流程更高效、更快捷,因为每项任务都由该领域的专家完成,不需要每个工人都参与每项任务,而不像在传统工厂里,每个工人可能什么都要做一点。

据传,OpenAI 使用的是带有 GPT-4 的 MoE 系统,这也是其部分性能的原因。就 Mixtral 8x7B 而言,其名称意味着该模型是由 8 个 70 亿参数的神经网络混合而成的,但并非所有的 70 亿参数都被 8 倍放大,只有 Transformer 中的 FeedForward 块被 8 倍放大,其他一切都保持不变。因此,参数总数也不是 56B,而是 46.7B。

Mixtral 并不是第一个 "开放的 "混合专家模型,但它的显著特点是参数数量和性能都相对较小。它现在已经发布,可在 Apache 2.0 许可下通过 Hugging Face  和 BitTorrent 下载。人们已经使用一个名为 LM Studio 的应用程序在本地运行它。此外,Mistral 还于周一开始为三个级别的 Mistral 模型提供 API 测试版访问权限。