2023年人工智能的8个预测

1、GPT-4 将在接下来的几个月内发布——是的，这将是一件大事。
最近关于 GPT-4 的谣言四起，GPT-4 是下一代 OpenAI 强大的生成语言模型。

预计 GPT-4 将在新年初发布，并代表相对于 GPT-3 和 3.5 的显着阶跃性能改进。正如最近围绕 ChatGPT 的炒作一样狂热，这只是 GPT-4 发布时公众反应的前奏。系好安全带。

GPT-4 会是什么样子？也许违反直觉，我们预测它不会比它的前身 GPT-3 大很多。在今年早些时候发表的一篇有影响力的研究论文中，DeepMind 研究人员确定，当今的大型语言模型实际上比它们应该的要大；为了获得最佳模型性能（给定有限的计算预算），当今的模型应该具有更少的参数但在更大的数据集上进行训练。换句话说，训练数据胜过模型大小。

大多数当今领先的语言模型都是在大约 3000 亿个令牌的数据集上训练的，包括 OpenAI 的 GPT-3（1750 亿个参数大小）、AI21 Labs 的 Jurassic（1780 亿个参数大小）和 Microsoft/Nvidia 的 Megatron-Turing（ 5700 亿个参数）。
我们预测 GPT-4 将在至少比这大一个数量级的数据集上进行训练——可能大到 10 万亿个代币。同时，它将比 Megatron-Turing 更小（即参数更少）。

GPT-4 有可能是多模式的：也就是说，除了文本之外，它还能够处理图像、视频和其他数据模式。这意味着，例如，它可以将文本提示作为输入并生成图像（就像 DALL-E 所做的那样）；或者将视频作为输入并通过文本回答有关它的问题。

多模式 GPT-4 将是一个重磅炸弹。然而，更有可能的是，GPT-4 将是一个纯文本模型（就像以前的 GPT 模型一样），其在语言任务上的表现将重新定义最先进的技术。这具体会是什么样子？GPT-4 可能在性能上表现出惊人飞跃的两个语言领域是记忆（保留和参考以前对话中的信息的能力）和摘要（将大量文本提炼为其基本元素的能力）。

2、我们将开始耗尽数据来训练大型语言模型。
数据是新的石油已经成为一种陈词滥调。这个比喻在一个被低估的方面是合适的：这两种资源都是有限的，都有被耗尽的风险。这种担忧最迫切的人工智能领域是语言模型。

正如我们在上一节所讨论的，像DeepMind的Chinchilla工作这样的研究工作已经强调，建立更强大的大型语言模型（LLMs）的最有效方法不是使它们更大，而是在更多的数据上训练它们。

但世界上还有多少语言数据呢？

这是一个具有挑战性的问题，但根据一个研究小组的说法，世界上高质量文本数据的总存量在4.6万亿至17.2万亿个符号之间。这包括世界上所有的书籍，所有的科学论文，所有的新闻文章，所有的维基百科，所有公开的代码，以及互联网的大部分其他内容，经过质量过滤（例如，网页，博客，社交媒体）。另一个最近的估计是，总数字为3.2万亿代币。

DeepMind的Chinchilla模型是在1.4万亿个tokens上训练出来的。

换句话说，我们可能会在一个数量级内耗尽世界上所有有用的语言训练数据的供应。这可能被证明是对语言人工智能持续进展的一个有意义的障碍。私下里，许多领先的人工智能研究人员和企业家都担心这个问题。

随着LLM研究人员寻求解决迫在眉睫的数据短缺问题，预计明年将在这一领域看到大量的关注和活动。一个可能的解决方案是合成数据，尽管关于如何操作的细节还很不清楚。另一个想法是：系统地转录世界会议的口语内容（毕竟，口语讨论代表着大量的文本数据，而这些数据今天还没有被采集）。

作为世界领先的LLM研究组织，OpenAI如何在其即将宣布的GPT-4研究中处理这一挑战，将是令人着迷和具有启发性的。

3、一些普通民众将首次开始使用完全无人驾驶的汽车作为他们日常的交通工具。
在自动驾驶汽车领域经过多年不成熟的炒作和未实现的承诺后，最近发生了一些事情，但似乎很少有人注意到：真正的无人驾驶汽车已经到来。

今天，作为普通公众的一员，你可以下载Cruise应用程序（它看起来就像Uber或Lyft的应用程序），然后叫一辆无人驾驶的汽车--没有人在驾驶，在旧金山的街道上把你从A点送到B点。

Cruise目前只在夜间（晚上10点到凌晨5点半）提供这些无人驾驶的服务，但该公司准备在整个旧金山提供全天候的服务。预计这将在几周内发生。Cruise的竞争对手Waymo紧随其后。

2023年，机器人出租车服务将迅速从一个迷人的新奇事物过渡到一个可行的、方便的、甚至是平凡的城市交通方式。道路上的机器人出租车的数量和使用它们的人数将激增。简而言之，自动驾驶汽车即将进入其商业化和规模化阶段。

推广工作将在每个城市的基础上进行。除了旧金山之外，预计明年至少还有两个美国城市将向公众提供完全的无人驾驶服务。可能的候选地点包括凤凰城、奥斯汀、拉斯维加斯和迈阿密。

4、2023年，搜索的变化将比谷歌在21世纪初成为主流以来的变化更大。
搜索是我们浏览和获取数字信息的主要手段。它是现代互联网体验的核心。

今天的大型语言模型能够以几年前似乎无法想象的复杂程度进行读写。这将对我们的搜索方式产生深远的影响。

在ChatGPT之后，搜索的一个重新概念化得到了广泛的关注，那就是对话式搜索的想法。如果你能与人工智能代理进行动态对话，以找到你要找的东西，为什么要输入一个查询并得到一长串链接（目前的谷歌体验）？

对话式搜索有一个光明的未来。不过，在它准备好进入黄金时段之前，需要解决一个主要挑战：准确性。对话式法律硕士的准确性并不可靠；他们偶尔会完全自信地分享与事实不符的信息。OpenAI首席执行官萨姆-奥特曼(Sam Altman)自己最近警告说。"现在依靠ChatGPT做任何重要的事情都是一个错误"。大多数用户不会接受一个在95%甚至99%的时间内都准确的搜索应用。以可扩展和强大的方式解决这个问题将是搜索创新者在2023年面临的主要挑战之一。

You.com、Character.AI、Metaphor和Perplexity是一波有前途的年轻创业公司，它们希望与谷歌竞争，用LLM和对话界面重塑消费者搜索。

但消费者互联网搜索并不是LLMs将改变的唯一类型的搜索。

企业搜索--企业搜索和检索私人内部数据的方式--也同样处于一个新的黄金时代的边缘。由于大规模的矢量化，LLM首次实现了真正的语义搜索：能够根据基本概念和背景而不是简单的关键词来索引和访问信息。这将使企业搜索变得更加强大和富有成效。

像Hebbia和Glean这样的初创公司正在引领使用大型语言模型改造企业搜索的潮流。

下一代搜索的机会已经超出了文本范围。人工智能的最新进展为多模态搜索开辟了全新的可能性：也就是跨数据模式查询和检索信息的能力。

鉴于它占了互联网上所有数据的80%，没有任何一种模式比视频代表着更大的机会。想象一下，能够毫不费力地精确搜索视频中的某个特定时刻、个人、概念或行动。Twelve实验室是一家建立多模态人工智能平台的创业公司，以实现细微的视频搜索和理解。

自谷歌在网络时代的崛起以来，搜索的变化出乎意料地小。明年，由于大型语言模型的出现，这将开始发生巨大的变化。

5、开发仿人机器人的努力将吸引大量的关注、资金和人才。几个新的仿人机器人计划将启动。
仿人机器人也许是好莱坞对人工智能夸张、戏剧化描述的最终象征（想想《机器之家》或《我，机器人》）。

那么，仿人机器人正在迅速成为现实。

为什么要建造形似人类的机器人？原因很简单，我们已经为人类设计了大部分的物理世界。如果我们计划使用机器人来实现世界上复杂活动的自动化--工厂、商场、办公室、学校--最有效的方法通常是让这些机器人拥有与完成这些活动的人类一样的外形。这样一来，机器人就可以部署在不同的环境中，而不需要对周围环境进行改造。

特斯拉今年推出了Optimus机器人，催化了仿人机器人领域的发展，该机器人在该公司9月份的人工智能日上首次亮相。埃隆-马斯克曾表示，他认为擎天柱机器人对特斯拉的价值最终将超过其整个汽车业务。特斯拉的机器人在准备进入黄金时代之前仍有很长的路要走--但不要低估该公司在投入全部资源时能够取得的快速进展。

一批有前途的初创公司也同样在推动仿人机器人领域的发展，包括Agility Robotics、Halodi Robotics、Sanctuary AI和Collaborative Robotics。

2023年，随着制造仿人机器人的竞赛进入白热化阶段，预计会有更多竞争者进入战场--包括新的初创公司和成熟的公司（如丰田、三星、通用、松下）。与2016年的自动驾驶汽车类似，随着越来越多的人认识到市场机会的规模，人才和资本将在明年开始涌入这一领域。

6、"LLMOps "的概念将作为MLOps的一个新的时尚版本出现。
当一个主要的新技术平台出现时，相关的需求和机会就会出现，以建立工具和基础设施来支持这个新平台。风险资本家喜欢把这些支持性工具看作是 "镐头和铁锹"（为即将到来的淘金热）。

近年来，机器学习工具--通常被称为MLOps--一直是创业界最热门的类别之一。一波热闹的MLOps创业公司已经以令人瞠目结舌的估值筹集了大量资金。Weights & Biases（以10亿美元的估值筹集2亿美元）、Tecton（筹集1.6亿美元）、Snorkel（以10亿美元的估值筹集1.38亿美元）、OctoML（以8.5亿美元的估值筹集1.33亿美元），等等。

现在，我们正在见证一个新的人工智能技术平台的出现：大型语言模型（LLMs）。与LLM之前的机器学习相比，大型语言模型代表了一种新的人工智能范式，具有独特的工作流程、技能组合和可能性。通过API或开放源码轻松获得大规模预训练的基础模型，完全改变了开发人工智能产品的面貌。因此，一套新的工具和基础设施注定要出现。

我们预测，"LLMOps "一词将作为一种速记法，指代这种新品种的人工智能镐和铁锹。新的LLMOps产品的例子将包括，例如：基础模型微调的工具，无代码LLM部署，GPU访问和优化，快速实验，快速链，以及数据合成和增强。

7、基于或引用AlphaFold的研究项目数量将激增。
DeepMind的AlphaFold平台在2020年底首次公布，解决了生命中的一个大谜团：蛋白质折叠问题。AlphaFold能够仅根据蛋白质的一维氨基酸序列准确预测其三维形状，这是一项具有里程碑意义的成就，人类研究人员几十年来一直无法实现。(我们曾在本专栏中指出，AlphaFold代表了人工智能历史上最重要的一项成就）。

由于蛋白质支撑着地球上每个生物体内发生的几乎所有重要活动，更深入地了解它们的结构和功能为生物学和人类健康提供了深刻的新可能性：从开发拯救生命的疗法到改善农业，从抗击疾病到研究生命的起源。

2021年7月，DeepMind开源了AlphaFold，发布了一个包含35万个三维蛋白质结构的数据库。(作为一个参考点，在AlphaFold之前，人类已知的蛋白质结构总数约为18万个）。然后，几个月前，DeepMind公开发布了另外2亿个蛋白质的结构--几乎是科学界已知的所有编目蛋白质。

在DeepMind最新发布的信息之后仅仅几个月，来自190个国家的50多万名研究人员已经使用AlphaFold平台访问了200万种不同的蛋白质结构。这仅仅是个开始。像AlphaFold这样规模的突破需要数年时间才能体现出其全部影响。

在2023年，预计建立在AlphaFold基础上的研究数量将激增。研究人员将利用这个庞大的基础生物知识的新宝库，并应用它来产生改变世界的跨学科应用，从新疫苗到新型塑料。

8、DeepMind、谷歌大脑和/或OpenAI将努力为机器人技术建立一个基础模型。
斯坦福大学的一个研究小组去年提出的 "基础模型 "一词，是指在广泛的数据上训练出来的大规模人工智能模型，它不是为某一特定任务而建立的，而是可以在广泛的不同活动中有效地执行。

基础模型一直是人工智能近期进展的一个关键驱动力。今天的基础模型强大得令人惊叹。但是--无论它们是像GPT-3这样的文本生成模型，还是像稳定扩散这样的文本到图像模型，或者像Adept这样的计算机行动模型--它们都只在数字领域运作。

在现实世界中行动的人工智能系统--例如，自动驾驶汽车、仓库机器人、无人机、仿人机器人--到目前为止仍然大多没有被新的基础模型范式所触及。

这种情况将在2023年改变。预计关于机器人基础模型这一概念的早期开创性工作将来自世界领先的人工智能研究机构。DeepMind、谷歌大脑或者OpenAI（尽管后者去年从机器人研究中退了一步）。

为机器人建立一个基础模型--换句话说，为物理世界建立一个基础模型，这意味着什么？在高层次上，这样的模型可能会在来自不同传感器模式（如相机、雷达、激光雷达）的大量数据上进行训练，以发展对物理学和现实世界物体的普遍理解：不同的物体如何移动，它们如何相互作用，它们有多重、多脆弱、多柔软或多灵活，当你触摸、掉落或投掷它们时会发生什么。这种 "现实世界的基础模型 "随后可以针对特定的硬件平台和特定的下游活动进行微调。