认知谬论:什么是维度诅咒


你的数据越详细,它就越缺乏洞察力。仅向图形添加 1 个额外参数会导致图形的体积呈指数增长,分散包含的数据点并删除它们之间的有意义的关联。
维度诅咒现象出现在数值分析、采样、组合学、机器学习、数据挖掘和数据库等领域。这些问题的共同主题是,当维度增加时,体积空间的增长如此之快,以至于可用数据变得稀疏。为了获得可靠的结果,所需的数据量通常会随着维度呈指数增长。
这个短语,归因于 Richard Bellman,是为了表达使用蛮力(又名网格搜索)来优化具有太多输入变量的函数的困难。
在今天的大数据世界里,它也可以指当你的数据有大量维度时出现的其他几个潜在问题。

  1. 如果我们的特征比观测值多,我们就会有大规模过度拟合模型的风险--这通常会导致糟糕的样本外表现。
  2. 当我们有太多的特征时,观测值就会变得更难聚类--信不信由你,太多的维度会导致你的数据集中的每一个观测值与其他的观测值出现等距离。因为聚类使用了诸如欧几里得距离这样的距离测量方法来量化观察结果之间的相似性,所以这是一个大问题。如果距离都是近似相等的,那么所有的观测值看起来都是一样的(也是一样的不同),就不能形成有意义的聚类。

可参考机器学习中 PCIA