2022年人工智能热门故事


2022年是AI 取得巨大进步的一年,AIGC年:生成类人文本、图像和代码的系统。

合成图像

  • OpenAI 在四月份推出了DALL·E 2。超过 150 万用户对该模型进行了 Beta 测试,并于 9 月,该公司将其广泛使用。微软资助 OpenAI 以换取对其工作的独家商业权利,并将该模型集成到其 Azure AI 即服务平台中。
  • 到 7 月,按钮式艺术家在社交媒体平台上充斥着由更简单的Craiyon制作的相对粗糙的图像。
  • Stability AI 很快通过开源模型Stable Diffusion提高了赌注——在 11 月更新到 2.0 版——最终吸引了超过 1 亿美元的新资本。
  • Adobe 和库存照片的主力人物 Getty Images 和 Shutterstock 将图像生成模型集成到他们自己的产品和服务中。
  • 根据给出的文本提示,此类程序会产生截然不同的结果。PromptBase为生成有趣输出的文本字符串打开了一个市场。

此类模型是根据从网络上抓取的图像进行训练的。像大型语言模型一样,它们继承了在线内容中嵌入的偏见并模仿了煽动性的表达方式。

扩散模型通过从噪声开始并通过一系列步骤有选择地去除它来生成输出。由加州大学伯克利分校和斯坦福大学的研究人员于 2015 年推出,他们在幕后工作了几年,直到进一步的工作表明他们可以生成与生成对抗网络 (GAN) 的输出具有竞争力的图像。Stability AI 将扩散模型置于 Stable Diffusion 的核心。基于 GAN 的 DALL·E 初始版本的 OpenAI,大约在同一时间用扩散模型对其进行了更新。

来年正在为计算机辅助创造力的一场革命做准备。生成图像的风潮不会止步于图片。谷歌和 Meta 今年发布了令人印象深刻的文本到视频 模型,而 OpenAI 将文本到 3D 对象的生成速度提高了一个数量级。

程序员最好的朋友
人工智能驱动的代码生成器进入大公司,甚至小型开发人员(和非开发人员)也能使用它们。

  • 今年伊始,Ebay低代码工具交到非工程师手中,使他们能够在事先不了解人工智能或机器学习的情况下构建和部署模型。
  • 2 月,DeepMind 推出了AlphaCode,这是一种在 12 种编程语言的 8600 万个程序上进行预训练的转换器,并针对编码竞赛的参赛作品进行了微调。根据推理,它会生成一百万个可能的解决方案并过滤掉不好的解决方案。就这样,它在 10 场编码比赛中追溯击败了一半以上的参赛者。
  • 6 月,GitHub 开放了对 Copilot 的访问,Copilot是一个实时建议代码的自动完成系统。用户支付订阅费,但学生和经过验证的开源开发人员可以免费访问。

人工智能驱动的编码工具不太可能在不久的将来取代人类程序员,但它们可能会取代技术问答网站 Stack Overflow,成为开发人员最喜欢的拐杖。

人工智能的眼睛进化
Google Brain 的一个团队在 2020 年推出了视觉转换器 (ViT),此后该架构经历了不间断的改进。最新的努力使 ViT 适应新任务并解决了它们的缺点。

  • ViT 从大量数据中学习得最好,因此 Meta 和 Sorbonne 大学的研究人员专注于提高(仅)数百万个示例的数据集的性能。他们使用数据增强和模型正则化等既定程序的特定于变压器的改编来提高性能。
  • Inha 大学的研究人员修改了两个关键组件,使 ViT更像卷积神经网络。首先,他们将图像分成具有更多重叠的小块。其次,他们修改了自注意力以关注补丁的邻居而不是补丁本身,并使其能够了解是更均匀地还是更有选择性地权衡相邻补丁。这些修改显着提高了准确性。
  • 印度孟买理工学院的研究人员为ViT 配备了卷积层。由于权重共享,卷积带来了像素的本地处理和更小的内存占用等好处。在准确性和速度方面,他们的卷积 ViT 优于通常版本以及 Performer、Nyströformer 和 Linear Transformer 等转换器的运行时优化。其他团队采取了类似 的方法

虽然许多 ViT 研究旨在超越并最终取代卷积神经网络 (CNN),但更强大的趋势是将两者结合起来。ViT 的优势在于它能够考虑小尺度和大尺度图像中所有像素之间的关系。一个缺点是它需要额外的训练才能以随机初始化后融入 CNN 架构的方式进行学习。CNN 的局部上下文窗口(其中只有局部像素很重要)和权重共享(使其能够以相同的方式处理不同的图像位置)帮助变换器从更少的数据中学习更多。

过去一年扩大了 Vision Transformer 在许多应用中的范围。ViTs生成似是而非的连续视频帧从 2D 图像序列生成 3D 场景,并检测点云中的对象。如果没有它们,很难想象基于扩散模型的文本到图像生成器的最新进展。

语言模型
语言模型生成似是而非的文本的能力超过了它们辨别事实、抵制旋转幻想和表达社会偏见的能力。研究人员努力使他们的输出更值得信赖,减少煽动性。

  • 2021 年底,DeepMind 提出了RETRO模型,该模型从 MassiveText 数据集中检索段落并将其整合到其输出中。
  • AI21 Labs 春季推出的Jurassic-X引入了一套模块——包括一个计算器和一个查询维基百科的系统——以事实检查语言模型对数学问题、历史事实等的答案。
  • 斯坦福大学和洛桑联邦理工学院的研究人员创建了SERAC,这是一个用新信息更新语言模型而无需重新训练的系统。一个单独的系统存储新数据并学习为与该数据相关的查询提供输出。
  • Meta 构建了Atlas,这是一种通过从文档数据库中检索信息来回答问题的语言模型。该方法于 8 月发布,使 110 亿参数的 Atlas 在回答问题时优于 5400 亿参数的 PaLM。
  • 今年年底,OpenAI 对ChatGPT进行了微调,以最大限度地减少不真实、有偏见或有害的输出。人类对模型训练数据的质量进行排名,然后强化学习算法奖励模型生成与排名高的输出相似的输出。
  • 这样的发展加强了对评估更多变化和微妙能力的语言基准的需求。响应号召,130 多家机构合作开发了BIG-bench,其中包括从表情符号推断电影片名、参与模拟试验和检测逻辑谬误等任务。

在过去的一年里,文本生成中真实和正派的工具箱大幅增长。成功的技术将在未来的轰动一时的模型浪潮中找到出路。

一个模型做所有一切
研究人员突破了神经网络可以学习多少种不同技能的极限。他们的灵感来自于大型语言模型的新兴技能——例如,无需架构调整就可以创作诗歌和编写计算机程序的能力——以及在文本和图像上训练的模型找到不同数据类型之间对应关系的能力.

  • 今年春天,谷歌的PaLM在涉及语言理解和生成的数百项任务中展示了小样本学习的最新成果。在某些情况下,它的表现优于经过微调的模型或人类的平均表现。
  • 不久之后,DeepMind 发布了Gato,这是一个变形金刚,它学习了 600 多种不同的任务——玩 Atari 游戏、使用机器人手臂堆叠积木、生成图像说明等等——尽管不一定以及专用于这些任务的单独模型。该系统同时接受了各种数据集的监督训练,从文本和图像到强化学习代理生成的动作。
  • 随着这一年接近尾声,谷歌的研究人员为机器人技术带来了类似的能力范围。RT-1是一种变压器,可让机器人执行 700 多项任务。该系统将动作和图像标记化,从近一年半的时间里从一队机器人收集的 130,000 集的数据集中学习。与现有技术相比,它在新任务、环境和对象中实现了出色的零样本性能。

我们仍处于构建算法的早期阶段,这些算法可以推广到数百种不同的任务,但这一年表明深度学习有潜力让我们实现这一目标。