2024 年 18 种最佳大语言模型

banq

大语言模型LLM 是一种黑盒人工智能系统,它通过对海量数据集应用深度学习来理解和生成新文本。

注意力机制是一种模仿人类认知注意力的机器学习技术,最早在 2014 年的一篇题为“通过联合学习对齐和翻译的神经机器翻译”的研究论文中提出。这标志着现代 LLM 发展的开始。

Transformer 模型在 2017 年的另一篇题为“注意力就是你所需要的一切”的论文中被引入,该模型改进了注意力机制。

Transformer 模型是当今一些最著名的语言模型的基础,例如来自 Transformer 的双向编码器表示 (BERT) 和生成式预训练 Transformer 系列 LLM。

ChatGPT 于 2022 年推出,仅两个月后就吸引了超过 1 亿用户,它利用了 OpenAI 的一系列语言模型。自那时起,许多竞争模型相继推出。其中一些是开源的,而另一些则归微软和谷歌等大公司所有。

以下是一些最新、最相关的大型语言模型。它们处理自然语言并对未来的模型架构产生影响。
BERT
Google 于 2018 年推出了 BERT 系列 LLM。使用基于 Transformer 的 BERT 模型,可以将数据序列转换为不同的数据序列。BERT 具有 3.42 亿个参数,设计为 Transformer 编码器的堆栈。BERT 首先在大量数据上进行训练,然后对其进行改进以执行特定功能,例如句子文本相似性和自然语言推理。在 2019 年版的 Google 搜索中,它被用于增强查询理解。

Claude
Claude LLM 的重点是体质 AI,它根据一组原则修改 AI 输出,使其支持的 AI 助手准确、安全且有用。Anthropic 是创建 Claude 的公司。Claude 3.0 是 Claude LLM 的最新版本。

Cohere
企业 AI 平台 Cohere 提供多种 LLM,例如 Embed、Rerank 和 Command。这些 LLM 可以根据特定业务的独特需求进行定制和训练。《Attention Is All You Need》的作者之一创立了生产 Cohere LLM 的公司。Cohere 的优势之一是它不局限于单一云,而 OpenAI 则局限于 Microsoft Azure。

Ernie
百度的大型语言模型 Ernie 是 Ernie 4.0 聊天机器人的驱动力。该机器人于 2023 年 8 月推出,拥有超过 4500 万用户。有传言称 Ernie 拥有 10 万亿个参数。虽然该机器人能够处理其他语言,但其普通话表现最佳。

Falcon 40B
技术创新研究所创建了基于 Transformer 的因果解码器专用模型 Falcon 40B。该模型使用英语数据进行训练,并且公开可用。该模型有两个更紧凑的版本可供选择:Falcon 1B 和 Falcon 7B(10 亿和 70 亿个参数)。Falcon 40B 现已在 Amazon SageMaker 上提供。您也可以在 GitHub 上免费获取它。

Gemini
Google 的 Gemini LLM 系列负责该公司的 Gemini 聊天机器人。该模型取代了 Palm作为聊天机器人的动力源,并且由于这一转变,它从 Bard 更名为 Gemini。由于 Gemini 模型是多模式的,因此它们可以处理文本以及图像、音频和视频。此外,大量 Google 产品和应用程序都包含

Gemini。有三种尺寸可供选择:Ultra、Pro 和 Nano。这三种型号分别是 Ultra(最大和最强大的型号)、Pro(中端型号)和 Nano(最小和最有效的设备任务型号)。在大多数基准评估中,Gemini 的表现都优于 GPT-4。

Gemma
Google 开源语言模型 Gemma 系列使用与 Gemini 相同的资源进行训练。Gemma 有两种尺寸:20 亿参数模型和 70 亿参数模型。在多个评估基准上,Gemma 模型比类似尺寸的 Llama 2 模型更高效,并且可以在个人计算机上本地运行。

GPT-3
2020 年,OpenAI 发布了 GPT-3,这是一个拥有超过 1750 亿个参数的大型语言模型。GPT-3 采用仅解码器的 Transformer 架构。微软于 2022 年 9 月宣布,它是唯一一家使用 GPT-3 底层模型的公司。GPT-3 的规模是其前身的十倍。GPT-3 的训练数据来自 Wikipedia、Books1、Books2、WebText2 和 Common Crawl。

OpenAI向公众发布了 GPT 系列中最后一个模型 GPT-3 的参数数量。OpenAI 的论文《通过生成式预训练提高语言理解》于 2018 年首次介绍了 GPT 系列。

GPT-3.5
GPT-3.5 是 GPT-3 的改进版本,参数更少。借助人类反馈和强化学习,GPT-3.5 得到了改进。驱动 ChatGPT 的 GPT 版本是 GPT-3.5。OpenAI 声称 GPT-3.5 turbo 是各种模型中功能最强大的。GPT-3.5 的训练数据将持续到 2021 年 9 月。

它也被纳入 Bing 搜索引擎,但后来被 GPT-4 取代。

GPT-4
 是 OpenAI GPT 系列中最大的模型,于 2023 年发布。与其他模型一样,它也是基于 Transformer 的模型。尽管有传言称该模型包含超过 170 万亿个参数,但其参数数量并未像其他模型一样公开。OpenAI 表示,GPT-4 是一种多模态模型,这意味着它除了处理和生成语言之外,还可以处理和生成图像。此外,GPT-4 还添加了系统消息,允许用户自定义任务和语音语调。

GPT-4 在几项学术考试中的表现与人类相当。该模型发布后,一些人猜测 GPT-4 接近通用人工智能 (AGI),即与人类相当或超越人类的智能水平。微软必应搜索由 GPT-4 提供支持,它也可通过 ChatGPT Plus 获得,最终将包含在微软 Office 产品中。

Lamda
谷歌大脑于 2021 年发布,开发了一系列 LLM,称为 Lamda(对话应用语言模型)。Lamda 在大量文本语料库上进行了预训练,并采用了仅解码器的转换器语言模型。当谷歌前工程师 Blake Lemoine 于 2022 年公开宣称该程序具有感知能力时,LaMDA 引起了广泛关注。它是使用 Seq2Seq 架构开发的。

Llama
广泛的语言框架 Meta 的 LLM 于 2023 年发布,被称为 Meta AI (Llama)。最大的版本有 650 亿个参数。Llama 目前是开源的,之前只供经批准的研究人员和开发人员使用。Llama 有较小的版本,使用、测试和进行实验所需的处理能力较少。GitHub
、Wikipedia、CommonCrawl 和 Project Gutenberg 只是 Llama 训练的几个公共数据源。

Llama 有一个变压器架构。Llama 被有效地泄露并产生了许多后代,包括 Vicuna 和 Orca。

Mistral
Mistral 是一个包含 70 亿个参数的语言模型,在评估的每个基准测试中,其得分都高于同等规模的 Llama 语言模型。Mistral 还拥有一个经过精细调整的模型,旨在遵循指令。由于其规模较小,因此可以单独托管并有效地满足业务需求。其发布使用了基于 Apache 2.0 的许可证。

Orca
微软创建了 Orca,这是一个拥有 130 亿个参数的程序,小到可以在笔记本电脑上运行。通过模仿 LLM 实现的推理过程,它寻求在其他开源模型取得的进步的基础上再接再厉。在许多任务中,Orca 的表现与 GPT-3.5 相当,并且可以在参数显著减少的情况下完成与 GPT-4 相同的任务。Orca 建立在 LLaMA 的 130 亿个参数版本之上。

Palm
Google 的 5400 亿参数转换器 Pathways 语言模型为其 AI 聊天机器人 Bard 提供支持。该模型在多个 TPU 4 Pod(Google 专有的机器学习硬件)上进行了训练。Palm 擅长推理任务,如编码、分类、数学和问答。Palm 还非常擅长将困难的任务分解为更简单的子任务。

PaLM这个名字源于 Google 的一个研究项目,该项目旨在开发 Pathways,最终产生了一个单一模型,作为众多用例的基础。Palm 有许多经过调整的版本,例如用于网络安全部署的 Sec-Palm,可加快威胁分析速度,以及用于生命科学和医疗数据的 Med-Palm 2。

Phi-1
Microsoft Phi-1 是一个基于转换器的语言模型。Phi-1 用一组教科书质量的数据进行了四天的训练,只有 13 亿个参数。Phi-1 体现了使用更高质量和合成数据进行训练的小型模型的趋势。

由于规模较小,Phi-1 的通用功能较少,主要专注于 Python 编码。

StableLM
开源语言模型 StableLM 由 Stability AI 创建,该公司还创建了名为 Stable Diffusion 的图像生成器。截至撰写本文时,已有 30 亿和 70 亿个参数模型可用,还有 150 亿、300 亿、650 亿和 1750 亿个参数模型正在开发中。StableLM 致力于开放、友好和乐于助人。

Vicuna 33B
另一个由 Llama 开发的著名开源 LLM 是 Vicuna。它由 LMSYS 创建,并借助 sharegpt.com 的信息进行了微调。几个基准测试表明,它比 GPT-4 更小、功能更弱,但对于其大小的模型来说,它的表现仍然令人钦佩。GPT-4 有数万亿个参数,而 Vicuna 只有 330 亿个参数。

LLM precursors
尽管 LLM 是一个相对较新的现象,但其前身可以追溯到几十年前。了解现代 LLM 的发展如何受到远古前身 ELIZA 和近期前身 Seq2Seq的推动。

Seq2Seq
一种名为 Seq2Seq 的深度学习技术用于自然语言处理、图像字幕和机器翻译。它是 Google 的一项发明,也是其当前多个 LLM(例如 LaMDA)的基础。亚马逊的大型语言模型 AlexaTM 20B 也是基于 Seq2Seq。它结合了解码器和编码器的使用。

Eliza
创建于 1966 年,是首批自然语言处理程序之一。它是语言模型的最早实例之一。Eliza 使用模式匹配和替换来模拟对话。运行特定脚本时,Eliza 可以使用权重来指示要响应哪些关键字,以模仿患者和治疗师之间的互动。Eliza 背后的创始人 Joshua Weizenbaum 写了一本关于计算和人工智能极限的书。

大型语言模型如何运作
大型语言模型通过吸收大量书面文本形式的信息(例如书籍、文章和互联网数据)来运行。这些深度学习模型在处理更多高质量数据时,能够更好地理解和使用人类语言。

它们工作背后的基本思想:

  1. 架构:大型语言模型基于创新的 Transformer 模型架构。借助这种深度学习技术,LLM 可以使用注意力机制来评估序列中每个单词的重要性,从而处理单词之间的长距离依赖关系。
  2. 注意力机制:注意力机制是 Transformer 架构的基本元素之一,它使模型能够在生成输出时专注于原始输入文本的各个部分。这使得它能够捕捉文本中单词或子单词之间的关系,而不管它们在文本中的距离
  3. 训练数据:包括互联网部分内容的海量数据集用于训练法学硕士。这有助于他们学习风格、修辞、推理,甚至除了语法和事实之外,还学习一些常识。
  4. 标记:标记可以小到单个字符,也可以大到单词,用于划分文本。模型在批量处理这些标记时会生成并理解语言。
  5. 训练过程:预训练涉及对大型文本语料库进行无监督学习。它们预测序列中的下一个单词,同时学习语言模式、事实,甚至一些推理能力。微调:预训练之后,使用特定任务(例如翻译和摘要)的标记数据对模型进行细化。通过这种指令调整过程对模型进行调整,使其在这些任务上更有效。
  6. 分层方法:Transformer 架构的各层中都包含循环神经网络和注意力机制。信息在这些层中移动时会越来越抽象,从而使模型能够生成连贯且适合上下文的文本。
  7. 生成能力:LLm 具有生成能力,这意味着它们可以根据用户输入生成连贯的文本。大型语言模型能够通过从注意力机制中学习到的模式生成语言。
  8. 交互性:大型语言模型可以响应查询、根据提示生成文本,甚至通过聊天机器人模型实时模拟特定的写作风格。
  9. 局限性:LLM 并不真正“理解”文本。他们从训练数据集中识别出模式。

因为它们对序列敏感,所以它们可能会以不同的方式回答略有不同的问题。

人类在说话言语之间其实隐藏着推理,现在OpenAI大模型已经学会了这个技巧:字里行间的推理。

  • 大语言模型1.0时代:注意力机制,也就是基于上下文的模式匹配;
  • 大语言模型2.0时代:字里行间的推理

OpenAI的草莓项目,也就是人们传言的Qstar AI好像没有什么新鲜的,有趣的是大语言模型如何教自己思考