伸缩架构原理也适用于大模型


谷歌的Griffin论文完美地展示了缩放定律。由于参数扩展了 7 倍,任务性能提高了大约 10%。全部都使用相同的 3000 亿代币数据进行训练。当您跨参数扩展时,模型会获得更高的样本效率或更好的推断。

重点:虽然模型增长了 7 倍,性能只提升了 10%
但是:让事情从不可能变成可能:有些人认为,因此扩展是一个死胡同,OpenAI 和 GPT 是过去 5 年中扩展的最大支持者,并且它们确实取得了巨大的成功。当然,你还必须改进其他方面,但是当你想将这些方面推向极限时,扩展就会再次出现。

机器学习从根本上讲是让计算机通过示例进行学习:这意味着更少的直接人类知识和更多的利用计算和数据。

这实际上告诉我们:

  • 我们的训练和推理过程存在架构限制
  • 如果您告诉我更多的数据并不能产生更好的结果,那么您就没有正确使用数据。