AI深度学习中的链式规则 - Oriol

两条规则：概率链式法则和微积分链式法则，被命名为“链式规则”，对 ML 和 AI 的最新进展至关重要。

概率链法则
概率链法则是大型语言模型最新进展背后的一个强大工具。通过将许多小事件的概率相乘，我们可以计算出由这些小事件组成的复杂事件的概率。

p(abc) = p(c|ab) * p(b|a) * p(a)

这里所说的较小的事件，指的是在过去的标记中，一个标记的概率，p(c|ab)。在概率语言建模中，"标记 "是一个单一的文本单位，如一个词或一个词的一部分。现代语言模型考虑的词汇量约为10万个标记。

生成一个1000个令牌的序列需要一个疯狂的100K^1000=10^5000的选择。这比宇宙中估计的原子数量（10^82）要多得多。使用链式规则，可能的选择数量 "只有 "100K*1000=100M，这是一个更容易管理的数字。

微积分链式法则
微积分链式法则是一个强大的工具，使我们能够计算复杂函数的导数。具体来说，它指出，两个可微调函数f(g(x))的组合的导数由f'(g(x))* g'(x)给出。

这在深度学习中非常重要：它允许计算高度复杂的神经网络的导数，这些网络由简单函数的堆叠层组成。梯度下降被用来更新神经网络的权重，使其能够从数据中学习并执行复杂的任务。