最大似然估计可能因 "流形过度拟合 "而失败

22-04-20 banq

今天发表的这篇论文似乎提出了一个大胆的主张,即最大似然估计在深度生成模型中不是一个很好的训练目标。
流形假设是:观察到的高维数据聚集在低维流形周围,但最大似然方法(例如VAE、归一化流)学习的是高维密度。
本文认为,维度之间的不匹配将导致一个叫做 "流形过拟合 "的问题。

模型能够通过将低维流形周围的密度送至无穷大,从而在高维度上实现似然最大化,但它们可以在完全忽略流形上的数据分布的同时做到这一点。因此,换句话说,高容量模型将学习数据流形,但不学习数据分布--因此对流形过度拟合。作者说,这 "让人质疑最大似然作为训练目标的有效性"。

这似乎非常令人惊讶,因为最大似然训练基本上是概率建模的核心目标。除了对抗性训练方法外,大多数方法都使用它。这篇论文声称有证据表明流形过拟合会发生,但它依赖于大量的度量理论,所以我不认为我可以验证它们。

然后介绍了一种两步的建模方法来解决流形过拟合的问题--首先训练一个模型来学习流形作为其潜空间,然后在潜空间中训练第二个模型,学习流形上的分布。

以下是一些澄清/答案:
  1. 我们确实声称流形过度拟合“质疑最大似然作为训练目标的有效性”。然而,我们在使用高维密度模型的同时生活在低维流形中的数据的背景下提出了这一主张。我们并不是说标准的最大似然理论是错误的,但它不适用于我们感兴趣的背景。
  2. 我们相信 Dai 和 Wipf 的论文 ( https://arxiv.org/abs/1903.05789 ) 是最接近我们自己的论文。我们的第一个定理可以理解为他们的结果的推广,既适用于基于可能性的 DGM 而不仅仅是 VAE,也适用于更一般的流形类。
  3. 不幸的是,如果没有测度论,证明很难解析,因为它提供了同时讨论流形支持的分布和 R^D 支持的分布所必需的语言。
  4. VAE 和 NF 通常不能学习支持与 R^d 不同胚的流形,尽管有工作试图解决这个问题(例如https://arxiv.org/abs/1909.13833https://arxiv. org/abs/2106.03500)。
  5. 如结论中所述,正确设置潜在维度需要额外注意。尽管如此,我们相信即使将 d 视为我们任意选择的超参数,所获得的经验改进也是非常有说服力的。
  6. 我们不认为 FID 总是不可靠的,但是在运行我们的实验之后,我们确实发现样本的视觉质量并不总是与 FID 相关。提出基于样本的绩效指标具有挑战性,并且是一个活跃的研究领域。我们正在为我们的模型计算其他指标。
  7. 我们注意到一些评论说,在数据中添加少量噪声应该足以缓解流形过度拟合的问题。我们实际上在论文中讨论了这个问题,它有几个问题: A. 即使在视觉上相似,图像也不会与数据分布具有相同的分布。例如,MNIST 图像可能始终具有完全黑色的背景,在添加噪声后可能会被撤消。B. 直观地说,添加少量高斯噪声会导致流形周围出现高度峰值的密度,这在实践中可能难以学习。事实上,证明定理 1 的结果正是这些密度将在流形周围高度剥离。C. 我们实际上比较了将高斯噪声添加到数据中的模型的经验性能,


详细点击标题