chatgpt之父伊利亚认为训练数据已经用完
Ilya 伊利亚演讲开拓了科学家的视野!在我看来,这是最重要的幻灯片,也是他今天在#NeurIPS2024鼓舞人心的演讲的重点当趋势稳定时。
伊利亚幻灯片的主题是“Pre-training as we know it will end”(我们所知的预训练将结束)。幻灯片上列出了两个主要观点:
1. 计算能力(Compute)正在增长:
• 更好的硬件(Better hardware)
• 更好的算法(Better algorithms)
• 更大的集群(Larger clusters)
2. 数据(Data)并没有增长:
• 我们只有一个互联网(We have but one internet)
• 数据是AI的化石燃料(The fossil fuel of AI)
幻灯片下方还有一段文字,强调了互联网的唯一性,并将其比作AI的化石燃料,暗示数据是AI发展的基础,但数据的增长有限,就像化石燃料一样,一旦耗尽,就需要寻找新的能源。
Ilya Sutskever 最终确认:
在预训练阶段,LLM 的扩展已趋于稳定
计算在扩展,但数据却没有,新的或合成的数据也没有带来任何变化下一步>
与人类大脑一样,体积停止增长,但人类不断进步,LLM 上的智能体代理和工具将推动进步
序列到序列的学习
代理行为
教导自我意识可以将其视为“iPhone”,从硬件角度来看,它变得越来越大、越来越有用,但最终却停滞不前,而重点转移到应用程序上。
2025 将是智能体之年!
网友评论:
关键在于预训练能做的事情是有限的。下一阶段是从看似不太实质性的数量改进实现质的飞跃。真正的基于智能体代理 Q/强化的认知对于这一飞跃至关重要。
人类在数据上进行归纳的能力远低于人工智能。这意味着我们的大脑正在通过算法用更少的数据做更多的事情。在我们找到这个范式之前,我们离人工智能所能达到的顶峰还差得很远。
我不明白“我们的数据快用完了”这个说法。很快,人工智能引导的机器人将会在野外行动,与现实联系,不断以被动或引导式实验的方式收集数据。更多数据—>更智能的机器人—>更多指导性实验—>更多数据—>无限循环。有可能我们正处于短暂的平静期,但缩放定律将在每个维度上继续缩放。不这么认为是疯狂的。
DNA 数据、蛋白质组学数据、IR/UV/GAMMA 辐射数据、引力波数据。有大量数据我们从未用来进行训练。我希望 LLM 能够推理我无法推理的数据,而不是模仿我洗碗。
公司拥有大量的私人数据——比公开的数据多几个数量级。
人们完全误解了数据墙。这是数据溢出墙。大多数数据都很糟糕,以至于用一个好的 gpu 来反向传播数据都是浪费。
伊利亚演讲视频