AI深度学习中的链式规则 - Oriol


两条规则:概率链式法则和微积分链式法则,被命名为“链式规则”,对 ML 和 AI 的最新进展至关重要。

概率链法则
概率链法则是大型语言模型最新进展背后的一个强大工具。通过将许多小事件的概率相乘,我们可以计算出由这些小事件组成的复杂事件的概率。

p(abc) = p(c|ab) * p(b|a) * p(a)

这里所说的较小的事件,指的是在过去的标记中,一个标记的概率,p(c|ab)。在概率语言建模中,"标记 "是一个单一的文本单位,如一个词或一个词的一部分。现代语言模型考虑的词汇量约为10万个标记。

生成一个1000个令牌的序列需要一个疯狂的100K^1000=10^5000的选择。这比宇宙中估计的原子数量(10^82)要多得多。使用链式规则,可能的选择数量 "只有 "100K*1000=100M,这是一个更容易管理的数字。

微积分链式法则
微积分链式法则是一个强大的工具,使我们能够计算复杂函数的导数。具体来说,它指出,两个可微调函数f(g(x))的组合的导数由f'(g(x))* g'(x)给出。

这在深度学习中非常重要:它允许计算高度复杂的神经网络的导数,这些网络由简单函数的堆叠层组成。梯度下降被用来更新神经网络的权重,使其能够从数据中学习并执行复杂的任务。