离散化表示在现代深度学习中至关重要。矢量量化(VQ)已成为一种流行的方法,但存在优化复杂、编码本规模有限等问题。
该文提出了有限标量量化(FSQ)--一种更简单、更有竞争力的替代方法。取代 VQ-VAE 潜在表示中的向量量化(VQ)。
其关键在于:
- 通过每信道量化构建隐式编码本。我们将表示投射到一个低维空间。通过对信道进行独立量化,我们可以获得指数级大的隐式编码本。
- 量化只需将每个投影维度舍入到最接近的离散值。编码本从不显式存储。
- 这种简单的技术可实现端到端训练,而无需任何特殊损耗或编码本优化技巧。每个信道的舍入从本质上鼓励了对编码本的充分利用。
该方案将 VAE 表示投影到几个维度(通常少于 10 维)。每个维度都被量化为一小组固定值,从而得到一个由这些固定值的乘积构成的(隐含)编码集。通过适当选择维数和每个维数的值,我们可以获得与 VQ 相同的代码集大小。
在这种离散表示法的基础上,我们可以训练与 VQ-VAE 表示法相同的模型。例如,用于图像生成、多模态生成和密集预测计算机视觉任务的自回归和掩蔽变换器模型。
具体来说,我们将 FSQ 与 MaskGIT 一起用于图像生成,将 UViM 一起用于深度估计、着色和全景分割。
尽管 FSQ 的设计简单得多,但我们在所有这些任务中都获得了具有竞争力的性能。
我们的研究表明,在 VQ-VAE 和屏蔽变换器等最先进的模型中,FSQ 可以直接取代 VQ。尽管 FSQ 很简单,但它在图像生成、分割和深度估计等不同任务中实现了同等性能。
FSQ 提供了一种比 VQ 更简单但功能更强大的替代方案。通过将复杂的编码本优化换成每通道量化,FSQ 可以实现更简单的训练、更好的缩放和离散表示的广泛应用。
FSQ 不存在码本崩溃的问题,也不需要 VQ 中使用的复杂机制(承诺损失、码本重播、分码、熵罚等)来学习富有表现力的离散表示。