chatgpt之父伊利亚认为训练数据已经用完

banq

Ilya 伊利亚演讲开拓了科学家的视野!在我看来,这是最重要的幻灯片,也是他今天在#NeurIPS2024鼓舞人心的演讲的重点当趋势稳定时。

伊利亚幻灯片的主题是“Pre-training as we know it will end”(我们所知的预训练将结束)。幻灯片上列出了两个主要观点:
1.  计算能力(Compute)正在增长:
•  更好的硬件(Better hardware)
•  更好的算法(Better algorithms)
•  更大的集群(Larger clusters)
2.  数据(Data)并没有增长:
•  我们只有一个互联网(We have but one internet)
•  数据是AI的化石燃料(The fossil fuel of AI)

幻灯片下方还有一段文字,强调了互联网的唯一性,并将其比作AI的化石燃料,暗示数据是AI发展的基础,但数据的增长有限,就像化石燃料一样,一旦耗尽,就需要寻找新的能源。

Ilya Sutskever 最终确认:
在预训练阶段,LLM 的扩展已趋于稳定

计算在扩展,但数据却没有,新的或合成的数据也没有带来任何变化下一步>

与人类大脑一样,体积停止增长,但人类不断进步,LLM 上的智能体代理和工具将推动进步

序列到序列的学习
代理行为
教导自我意识可以将其视为“iPhone”,从硬件角度来看,它变得越来越大、越来越有用,但最终却停滞不前,而重点转移到应用程序上。

2025 将是智能体之年!


网友评论:
关键在于预训练能做的事情是有限的。下一阶段是从看似不太实质性的数量改进实现质的飞跃。真正的基于智能体代理 Q/强化的认知对于这一飞跃至关重要。

人类在数据上进行归纳的能力远低于人工智能。这意味着我们的大脑正在通过算法用更少的数据做更多的事情。在我们找到这个范式之前,我们离人工智能所能达到的顶峰还差得很远。

我不明白“我们的数据快用完了”这个说法。很快,人工智能引导的机器人将会在野外行动,与现实联系,不断以被动或引导式实验的方式收集数据。更多数据—>更智能的机器人—>更多指导性实验—>更多数据—>无限循环。有可能我们正处于短暂的平静期,但缩放定律将在每个维度上继续缩放。不这么认为是疯狂的。

DNA 数据、蛋白质组学数据、IR/UV/GAMMA 辐射数据、引力波数据。有大量数据我们从未用来进行训练。我希望 LLM 能够推理我无法推理的数据,而不是模仿我洗碗。

公司拥有大量的私人数据——比公开的数据多几个数量级。

人们完全误解了数据墙。这是数据溢出墙。大多数数据都很糟糕,以至于用一个好的 gpu 来反向传播数据都是浪费。


伊利亚演讲视频