2021年是巨大AI模型年 - technologyreview


当 OpenAI在 2020 年 6 月发布 GPT-3 时,神经网络对语言的明显把握是不可思议的。它可以生成令人信服的句子,与人类交谈,甚至自动完成代码。但 GPT-3 的影响在 2021 年变得更加明显。 今年带来了由多家科技公司和顶级 AI 实验室构建的大型 AI 模型的激增,许多模型在规模和能力上都超过了 GPT-3 本身。它们能有多大,成本是多少? 
GPT-3 吸引了全世界的注意力,不仅因为它可以做什么,还因为它是如何做到的。性能的惊人飞跃,尤其是 GPT-3 对未经专门训练的语言任务进行泛化的能力,并不是来自更好的算法,而是更大规模的绝对尺寸。 
AI需要一个新想法,但只是通过”大规模“实现了这一目标.
 
巨大模型 
模型很大意味着什么?模型(一个经过训练的神经网络)的大小是通过它拥有的参数数量来衡量的。这些是网络中的值,在训练过程中一次又一次地调整,然后用于进行模型的预测。粗略地说,模型的参数越多,它从训练数据中吸收的信息就越多,它对新数据的预测就越准确。
GPT-3 拥有 1750 亿个参数,是其前身 GPT-2 的 10 倍。但 GPT-3 与 2021 级相比相形见绌。 美国初创公司 AI21 Labs 于 9 月推出的商用大型语言模型 Jurassic-1 以 1780 亿个参数领先 GPT-3。DeepMind 12 月发布的新模型 Gopher 有 2800 亿个参数。威震天-图灵 NLG 有 5300 亿。谷歌的 Switch-Transformer 和 GLaM 模型分别有 1 个和 1.2 万亿个参数。 
这种趋势不仅仅发生在美国。今年,中国科技巨头华为构建了一个名为盘古的 2000 亿参数语言模型。另一家中国公司浪潮建立了元 1.0,一个 2450 亿参数的模型。百度和深圳研究所鹏程实验室宣布了 PCL-BAIDU Wenxin,这是一个拥有 2800 亿参数的模型,百度已经在各种应用中使用,包括互联网搜索、新闻提要和智能扬声器。而北京人工智能研究院发布了武道2.0,拥有1.75万亿个参数。 
与此同时,韩国互联网搜索公司 Naver 宣布了一个名为 HyperCLOVA 的模型,有 2040 亿个参数。 
这些中的每一个都是一项显着的工程壮举。
首先,训练一个具有超过 1000 亿个参数的模型是一个复杂的管道问题:数百个独立的 GPU——训练深度神经网络的首选硬件——必须连接和同步,训练数据必须分成块和在正确的时间以正确的顺序在它们之间分配。 
大型语言模型已成为展示公司技术实力的声望项目。然而,这些新模型中很少有人能将研究向前推进,而不是重复证明扩大规模会产生良好结果。 
 
创新

  • 经过训练后,Google 的 Switch-Transformer 和 GLaM 会使用它们的一小部分参数进行预测,因此它们可以节省计算能力。
  • PCL-Baidu Wenxin 将 GPT-3 风格的模型与知识图谱相结合,这是一种在老派符号 AI 中用于存储事实的技术。
  • 与 Gopher 一起,DeepMind 发布了 RETRO,这是一种只有 70 亿个参数的语言模型,它在生成文本时通过交叉引用文档数据库与其他 25 倍的参数进行竞争。这使得 RETRO 的培训成本低于其巨大的竞争对手。 

 
然而,尽管取得了令人印象深刻的结果,研究人员仍然不明白为什么增加参数数量会导致更好的性能。他们也没有修复这些模型学习和重复的有毒语言和错误信息。正如最初的 GPT-3 团队在一篇描述该技术论文中承认的那样 :“互联网训练的模型具有互联网规模的偏差。” 
尽管今年在构建新语言模型方面付出了很多努力,但 AI 仍然停留在 GPT-3 的阴影中。在 10 或 20 年内,大型模型将成为常态!