从 GPT-4 到 AGI:计算OOM

banq


本文讨论了人工智能的快速发展以及在不久的将来取得重大进展的潜力。以下是要点:

过去的AI进展:

  • “#有效加速主义 计算”的增加已经导致模型性能在几年内和许多数量级(OOM)的一致增长。
  • GPT-2类似于学龄前儿童的智力水平,GPT-3相当于小学生的水平,GPT-4相当于聪明的高中生

计算 OOM
深度学习的神奇之处在于它就是有效——尽管时不时会有反对者,但趋势却出奇地一致。 

  • 随着每次有效计算的 OOM,模型可以预测且可靠地变得更好。
  • 如果我们可以计算 OOM,我们就可以(粗略地、定性地)推断出能力的改进。

一些有先见之明的人就是这样预见到 GPT-4 的到来的。 

我们可以将 GPT-2 到 GPT-4 四年来的进展分解为三类扩展:

  1. 计算:我们使用更大的计算机来训练这些模型。
  2. 算法效率:算法不断进步,其中许多算法充当“计算乘数”,我们可以将它们放在有效计算增长的统一尺度上。
  3. “解除束缚”的好处:默认情况下,模型会学习很多令人惊叹的原始能力,但它们会以各种愚蠢的方式受到束缚,从而限制其实际价值。通过简单的算法改进,例如从人类反馈中进行强化学习 (RLHF)、思路链 (CoT)、工具和脚手架,我们可以释放出巨大的潜在能力。

我们可以沿着这些轴“计算 OOM”的改进:即以有效计算为单位跟踪每个的扩展。

  • 3 倍是 0.5 OOM;10 倍是 1 OOM;30 倍是 1.5 OOM;100 倍是 2 OOM;等等。

我们还可以看看从 2023 年到 2027 年,我们应该对 GPT-4 有什么期待。

结果很明显:我们正在快速穿越 OOM。数据墙中存在潜在的阻力,到 2027 年,我们似乎应该可以期待在 GPT-4 的基础上再出现一次 GPT-2 到 GPT-4 规模的飞跃。

算力
我将从最近进展中讨论最多的驱动因素开始:向模型投入(大量)更多的计算。 

许多人认为这仅仅是摩尔定律的功劳。但即使在摩尔定律鼎盛时期,其发展速度也相对缓慢——大概每十年 1-1.5 个 OOM。我们看到计算能力的扩张速度要快得多——接近摩尔定律的 5 倍——而这要归功于巨额投资。

我们可以使用 Epoch AI(因其出色的 AI 趋势分析而广受尊重的来源)的公开估计来追踪从 2019 年到 2023 年的计算扩展。

  • 从 GPT-2 到 GPT-3 的扩展非常快;存在大量计算过剩,从较小的实验扩展到使用整个数据中心来训练大型语言模型。
  • 随着从 GPT-3 到 GPT-4 的扩展,我们过渡到现代体制:必须为下一个模型构建一个全新的(大得多的)集群。
  • 然而,急剧的增长仍在继续。

总体而言,Epoch AI 估计表明,GPT-4 训练使用的原始计算量比 GPT-2 多约 3,000 倍至 10,000 倍。

总体而言,这只是长期趋势的延续。在过去十五年里,主要是由于投资的广泛扩大(以及以 GPU 和 TPU 的形式专门用于 AI 工作负载的芯片),用于前沿 AI 系统的训练计算以每年约 0.5 OOM 的速度增长。

到 2027 年底,额外的 2 个计算 OOM(价值数百亿美元的集群)似乎很有可能实现;甚至接近 +3 个计算 OOM(1000 亿美元以上)的集群似乎也是可行的

算法效率
虽然对计算的大规模投资引起了所有人的关注,但算法的进步可能也是同样重要的进步驱动力(并且被严重低估了)。

要了解算法进步有多大的作用,请看下面的例子:在短短两年内,数学基准(高中数学竞赛)的准确率下降到约 50% 。 (相比之下,一位不太喜欢数学的计算机科学博士生的成绩为 40%,所以这已经相当不错了。) 在不到两年的时间里,推理效率提高了近 3 个 OOM,即 1,000 倍。

虽然这些数字只是用于推理效率,但它们清楚地表明,算法上存在大量可能和正在发生的进步。 

在本文中,我将区分两种算法进展。
在这里,我将首先介绍“范式内”算法改进:

  • 这些改进仅仅导致更好的基础模型,并且直接充当计算效率或计算倍增器。

我们拥有 ImageNet 的最佳数据(其中算法研究大多已公开,并且我们拥有可追溯至十年前的数据):

  • 在 2012 年至 2021 年的 9 年间,我们一直将其计算效率提高约 ~0.5 OOM/年。
  • 这是一件大事:这意味着 4 年后,我们可以用大约 100 倍更少的计算量实现相同的性能(同时,在相同的计算量下获得更高的性能!)。

综合起来,公开信息表明:

  • 从 GPT-2 到 GPT-4 的飞跃包括 1-2 个 OOM 的算法效率提升。
  • 在 GPT-4 之后的 4 年里,我们预计这一趋势将会持续下去:平均每年的计算效率为 0.5 OOM,即到 2027 年与 GPT-4 相比将提高约 2 OOM。

虽然随着我们摘取唾手可得的果实,计算效率将变得越来越难找到,但人工智能实验室在寻找新的算法改进方面的资金和人才投资正在迅速增长。

总结目前的趋势:

  • 有效计算OOM的变化率可能会在本世纪末放缓。
  • 扩大支出:用于大型培训的GDP份额正在迅速增加,但一旦实现万亿美元的培训,进一步的支出可能会以接近每年2%的GDP增长率增加。
  • 硬件收益:人工智能计算能力的增长速度一直快于摩尔定律,但一旦一次性收益完成,进展将回到硬件改进的基线速度。
  • 算法进展:到2020年,世界上最聪明的技术人才中很大一部分可能会从事人工智能研发,而且很多容易摘到的水果都已经被摘走了,因此算法的进展可能会放缓。

.
未来预测:
  • AGI到达的模态年是在2020年代后期,即使你认为中位数在那之后。
  • 有效计算OOM的变化率可能会在本世纪末放缓。
  • 到2025/26年,人工智能模型将超过许多大学毕业生。到2020年,他们将比你我更聪明,我们将拥有超级智能。

.
国家安全与竞争力:
  • 美国必须赢得超级智能竞赛,因为中国第一将是灾难性的。
  • 安全性很重要,但仍然是可处理的

.
奇点:
  • 数以亿计的AGI可以自动化AI研究,将十年的算法进展压缩到不到一年。
  • 这将迅速导致巨大的超人AI系统,具有巨大的力量和危险

忘掉科幻小说,数一数 OOM:这是我们应该期待的。AGI 不再是一个遥不可及的幻想。简单的深度学习技术的扩展已经奏效,模型只是想学习,到 2027 年底,我们将再做 100,000 倍以上的扩展。用不了多久,它们就会比我们聪明。