伸缩架构原理也适用于大模型

谷歌的Griffin论文完美地展示了缩放定律。由于参数扩展了 7 倍，任务性能提高了大约 10%。全部都使用相同的 3000 亿代币数据进行训练。当您跨参数扩展时，模型会获得更高的样本效率或更好的推断。

重点：虽然模型增长了 7 倍，性能只提升了 10%
但是：让事情从不可能变成可能：有些人认为，因此扩展是一个死胡同，OpenAI 和 GPT 是过去 5 年中扩展的最大支持者，并且它们确实取得了巨大的成功。当然，你还必须改进其他方面，但是当你想将这些方面推向极限时，扩展就会再次出现。

机器学习从根本上讲是让计算机通过示例进行学习：这意味着更少的直接人类知识和更多的利用计算和数据。

这实际上告诉我们：