为什么最简单的解释并不总是最好的


该文章讨论了降维方法在解释高维数据时的局限性。主成分分析(PCA)是一种常用的降维技术,但它可能会错过数据中存在的结构或产生幻觉的结构。作者通过示例说明了当应用PCA于时间或空间平滑信号时可能出现的振荡情况。文章强调了直观和简单的解释并不总是最好的选择。

要点:

  • 降维方法的简单解释并不总是最好的,因为它们可能会错过数据中存在的结构。
  • 主成分分析(PCA)是常用的降维技术之一,但它可能会产生幻觉性的结构,与数据中的生成因素不一致。
  • 在神经科学和行为分析中,应用PCA到时间或空间平滑信号时,由于平滑性,会出现振荡的效果。

正如《美国国家科学院院刊》中的 Shinn 所强调的那样,直观和简单的感觉往往会产生误导:降维针对数据的特定统计特征进行优化,但并不总是与最直观的解释一致。

无论我们如何进行降维,如果不理解方法背后的假设和偏差,那么就有可能看到数据中不存在的东西。

那么,当面对复杂且现实世界的行为时,我们应该做什么呢?我们是否试图找到一个具有适当复杂度的模型?

在复杂的模型中寻找更简单的解释。一种激进的选择是放弃为复杂数据寻找简单解释的想法。

如果数据很复杂,我们仍然可以构建一个对其进行公正处理的模型,例如,通过构建针对许多不同任务、跨许多动物和个体以及跨不同数据源进行训练的基础模型。

这样的模型可以轻松地对数据复杂性进行建模,因为它们具有在非常大的数据集上调整的大量参数。这种方法有望提供降维的许多好处,例如,实现更好的解码,同时允许处理不简单或不易解释的数据。

然而,这些模型中没有任何东西是简单或可解释的——预测比解释容易得多。

在大多数情况下,可能没有一种简单的方法来以人类可以轻松解释的方式描述数据和模型的复杂性。这可以说是神经科学中最具挑战性的话题。如果大脑功能不遵循一套简单的原则,我们能理解它什么?我们如何在忠实于数据和渴望简单解释之间找到平衡?