chatgpt之父伊利亚认为训练数据已经用完

Ilya 伊利亚演讲开拓了科学家的视野！在我看来，这是最重要的幻灯片，也是他今天在#NeurIPS2024鼓舞人心的演讲的重点当趋势稳定时。

伊利亚幻灯片的主题是“Pre-training as we know it will end”（我们所知的预训练将结束）。幻灯片上列出了两个主要观点：
1. 计算能力（Compute）正在增长：
• 更好的硬件（Better hardware）
• 更好的算法（Better algorithms）
• 更大的集群（Larger clusters）
2. 数据（Data）并没有增长：
• 我们只有一个互联网（We have but one internet）
• 数据是AI的化石燃料（The fossil fuel of AI）

幻灯片下方还有一段文字，强调了互联网的唯一性，并将其比作AI的化石燃料，暗示数据是AI发展的基础，但数据的增长有限，就像化石燃料一样，一旦耗尽，就需要寻找新的能源。

Ilya Sutskever 最终确认：
在预训练阶段，LLM 的扩展已趋于稳定

计算在扩展，但数据却没有，新的或合成的数据也没有带来任何变化下一步>

与人类大脑一样，体积停止增长，但人类不断进步，LLM 上的智能体代理和工具将推动进步

序列到序列的学习
代理行为
教导自我意识可以将其视为“iPhone”，从硬件角度来看，它变得越来越大、越来越有用，但最终却停滞不前，而重点转移到应用程序上。

2025 将是智能体之年！

网友评论：
关键在于预训练能做的事情是有限的。下一阶段是从看似不太实质性的数量改进实现质的飞跃。真正的基于智能体代理 Q/强化的认知对于这一飞跃至关重要。

人类在数据上进行归纳的能力远低于人工智能。这意味着我们的大脑正在通过算法用更少的数据做更多的事情。在我们找到这个范式之前，我们离人工智能所能达到的顶峰还差得很远。

我不明白“我们的数据快用完了”这个说法。很快，人工智能引导的机器人将会在野外行动，与现实联系，不断以被动或引导式实验的方式收集数据。更多数据—>更智能的机器人—>更多指导性实验—>更多数据—>无限循环。有可能我们正处于短暂的平静期，但缩放定律将在每个维度上继续缩放。不这么认为是疯狂的。

DNA 数据、蛋白质组学数据、IR/UV/GAMMA 辐射数据、引力波数据。有大量数据我们从未用来进行训练。我希望 LLM 能够推理我无法推理的数据，而不是模仿我洗碗。

公司拥有大量的私人数据——比公开的数据多几个数量级。

人们完全误解了数据墙。这是数据溢出墙。大多数数据都很糟糕，以至于用一个好的 gpu 来反向传播数据都是浪费。

伊利亚演讲视频

chatgpt之父伊利亚认为训练数据已经用完

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道