什么是过度拟合?

23-01-19 banq

过度拟合(Understanding Overfitting)是一种建模错误,当一个函数与一组有限的数据点过于紧密地拟合时就会发生。
因此,该模型仅在参考其初始数据集时有用,而不是在参考任何其他数据集时有用。
(例如某套机器学习系统在测试阶段用测试数据准确率高,但是进入生产领域,使用真实数据就不行了)

它可以发生在任何解释引入不必要的假设的情况下。

过度拟合模型的形式一般是做一个过于复杂的模型来解释所研究的数据中的特异性。在现实中,经常研究的数据有一定程度的误差或随机噪音。因此,试图使模型与稍微不准确的数据过于一致,会使模型感染上大量的错误,降低其预测能力。(用有偏差的数据影响了模型算法)
  • 过度拟合是数据建模中出现的一种错误,是由于一个特定的函数与一组最小的数据点过于接近而导致的。
  • 金融专业人员有可能在有限的数据基础上过度拟合一个模型,最终得到有缺陷的结果。
  • 当一个模型因过度拟合而受到影响时,该模型可能会失去其作为投资预测工具的价值。
  • 一个数据模型也可能是欠拟合的,这意味着它太简单了,数据点太少,无法发挥作用。
  • 过度拟合是一个比欠拟合更频繁的问题,通常是由于试图避免过度拟合而发生的。


例如,一个常见的问题是使用计算机算法来搜索大量的历史市场数据数据库,以寻找模式。如果有足够的研究,往往可以发展出精心设计的定理,似乎可以接近准确地预测股票市场的回报。

然而,当应用于样本以外的数据时,这种定理很可能被证明仅仅是模型的过度拟合,而实际上只是偶然发生的情况。在任何情况下,用用于建立模型的样本以外的数据来测试模型是很重要的。

如何防止?
防止过度拟合的方法包括交叉验证,即把用于训练模型的数据分成几折或几段,对每一折运行模型。然后,对总体误差估计进行平均。其他方法包括合集:从至少两个独立的模型中进行预测,数据扩充,使可用的数据集看起来多样化,以及数据简化,其中模型被简化以避免过度拟合。

 金融专业人士必须始终意识到基于有限数据的模型过度拟合或欠拟合的危险。理想的模型应该是平衡的。

机器学习中的过拟合
过度拟合也是机器学习中的一个因素。当一台机器被教导以一种方式扫描特定的数据时,它可能会出现,但当同样的过程被应用于一组新的数据时,结果是不正确的。这是因为建立的模型存在错误,因为它可能显示出低偏差和高方差。该模型可能有多余的或重叠的特征,导致它变得不必要的复杂,因此是无效的。

过度拟合与欠拟合
过度拟合的模型可能过于复杂,使其失去效力。但一个模型也可能是欠拟合的,这意味着它太简单了,特征太少,数据太少,无法建立一个有效的模型。一个过拟合的模型具有低偏差和高方差,而一个欠拟合的模型则相反,它具有高偏差和低方差。在一个太简单的模型中添加更多的特征可以帮助限制偏差。