DeepMind 的新方法叫 Streaming DiLoCo,是基于他们之前发布的 DiLoCo 改进的。这个方法可以训练有几十亿个参数的 AI 模型,而且效果和以前一样好,但用的网络流量却少了很多。测试表明,这个新技术比原来的 DiLoCo 更好用。
DiLoCo 的三个改进:
- 分批更新参数:以前是一次性更新所有参数,现在是一部分一部分地更新。这样可以减少网络流量的高峰,因为不需要一次性传那么多数据。
- 边训练边同步:电脑在同步数据的同时还能继续训练,不用停下来等,节省了时间。
- 压缩数据:在电脑之间传输数据时,用低精度的格式(比如 4 位)来减少流量,但训练时还是用高精度计算。即使这样压缩,模型的效果也没变差。
效果如何?
- 模拟测试:在训练 10 亿、100 亿甚至 1000 亿参数的模型时,Streaming DiLoCo 都比原来的方法更高效,而且模型越大,优势越明显。
- 实际测试:训练了一些小模型(3500 万到 40 亿参数),结果发现用 Streaming DiLoCo 训练的模型效果和以前差不多,但用的网络流量少了很多。
为什么这很重要?
这种方法让我们可以更灵活地训练 AI,甚至可以用分布在全球的电脑来训练模型,而不需要依赖大型数据中心。未来,可能会有很多小型的、分散的电脑网络在悄悄训练 AI,这可能会让那些想通过监控数据中心来控制 AI 发展的策略变得不那么有效。