gpt-finite-state.ipynb :一个带有两个标记0/1和上下文长度为3的小型GPT


训练/研究微小的GPT很有趣,因为它变得很容易可视化,并对整个动态系统有一个直观的感觉。

这是一个带有两个标记0/1和上下文长度为3的小型GPT,将其视为有限状态马尔可夫链。它在序列“111101111011110”上训练了50次迭代。

Transformer的参数和架构修改箭头上的概率。

例如,我们可以看到,:
- 在训练数据中,状态101确定地过渡到011,所以该过渡的概率变得更高(79%)。不是接近100%,因为我们只做了50步的优化。

- 状态111转为111和110的概率各为50%,模型几乎学会了(45%,55%)。

- 像000这样的状态在训练过程中从未遇到过,但有相对尖锐的过渡概率,例如,73%的概率会转到001。这是转化器中归纳偏见的结果。我们可以想象,希望这个概率是50%,但在实际部署中,几乎每个输入序列都是独一无二的,不存在于训练数据中。

详细点击标题