泛化的第一性原理 - KDnuggets


我们现在看到的大多数机器学习 (ML) 论文都专注于推进不同领域的新技术和方法,例如自然语言或计算机视觉。尽管缺乏机器智能的基本理论,但 ML 研究仍在以疯狂的速度推进。ML 中的一些主要问题,例如如何理解神经网络如何学习或如何量化知识泛化,仍未得到解答。我们不时会遇到一些论文,这些论文以新的想法挑战我们对 ML 理论的基本理解。这就是“神经切线核特征值准确预测泛化”的案例,这是 伯克利人工智能研究(BAIR)刚刚发表的开创性论文,它提出了一种新的泛化理论。
理解泛化仍然是现代机器学习中最大的谜团之一。在他们的论文中,BAIR 研究人员解决了以下陈述中所述的泛化基本问题的变体:
如果提供给定数量的训练示例,能否根据第一原理有效地预测给定网络架构在学习给定函数时的泛化能力?
为了回答这个问题,BAIR 团队依赖于最近在深度学习方面的两项突破:
 
1) 无限宽网络
  近年来深度学习最有趣的理论发展之一是无限宽度网络理论。这一发展表明,由于神经网络中的隐藏层趋向于无限,因此神经网络本身的行为采用非常简单的分析形式。这个想法表明,通过研究理论上的无限神经网络,我们可以深入了解有限等价物的泛化。这类似于传统微积分中的中心极限定理。
 
2) 核回归近似
  第二个突破与第一个密切相关,但更具体。最近在深度学习优化方面的研究表明,通过具有均方误差 (MSE) 损失的梯度下降训练的宽网络等效于称为核回归的经典模型。在这种情况下,内核是网络的“神经切线内核”(NTK),它描述了使用梯度下降训练时的演化。更正常地说,研究表明,内核回归的 MSE 的近似值(以 NTK 为内核)可以准确预测网络学习任意函数的 MSE。
 
好处:可学习性
BAIR 的泛化第一性原理理论的最大贡献是可学习性的概念。可学习性的思想是量化目标函数和学习函数之间的近似值。这对 MSE 来说听起来非常熟悉,但可学习性表现出与 MST 不同的特性,这使其更适合以后的模型。
BAIR 研究的结果远非结论性的,但表明要得出神经网络泛化的一般理论,还有更多工作要做。可学习性度量的贡献表明,对传统 MSE 和核回归方法的简单改进可以更准确地理解神经网络如何泛化知识。