数据科学的三个基础常识

每个数据科学家都需要了解这些观点,它们会让你大开眼界。

1.相关性与因果关系
P(A | B) 是指定 B 的 A 的概率。

P(A | do(B)) 是给定 do(B) 的 A 的概率。它是在我们干预导致 B 发生的情况下,我们观察到 A 的概率。

在这里,干预只是指采取某种行动。因此,do(B) 指的是采取导致 B 发生的行动。

P(A | B) 和 P(A | do(B)) 这两个表达式看似非常相似,但它们代表的情况却截然不同。


2.我们只能从数据中学习 P(A|B)。
鲍勃有一个非常准确的天气应用程序,下雨时他总是很自觉地带伞。我们对鲍勃进行了几年的观察,发现每当下雨时,鲍勃总是带着伞,而在不下雨的日子里,他从不带伞。

在概率语言中,我们说 P(Umbrella | Rain) = 1,P(Rain | Umbrella) = 1。

仅从这些数据中,我们就能学会如何通过检查鲍勃是否带伞,以 100% 的准确率预测是否下雨。我们还可以学会通过检查是否会下雨,以 100% 的准确率预测鲍勃是否有雨伞。

我们无法学会的是,如果我们随机选择一天给鲍勃一把伞,会发生什么。这个问题的答案是 P(Rain | do(Umbrella) ),仅从数据中是无法得知的。

我们需要关于世界如何运作的先验知识,才能正确解释我们收集到的数据。我们需要知道,下雨对鲍勃的行为有影响,但鲍勃的行为对下雨没有影响。

除非通过受控实验操作收集数据,否则原始数据中根本没有关于干预效果的信息。

3.科学实验之所以有效,是因为它们能产生一种非常特殊的数据。
你可能听说过很多人所说的科学实验。我们收集了一些物体、动物或人。随机将其分为对照组和治疗组。将你的干预措施应用于治疗组,而不去管对照组。如果您观察到治疗组和对照组之间存在任何差异,那么将这些差异归因于治疗是合乎逻辑的。因此,您可以说这些差异是由治疗引起的。

在统计学中,我刚才描述的程序被称为随机对照试验。它是一种生成特定数据的程序,在这种程序中,

 P(Difference | Treatment) = P(Difference | do(Treatment) )

这就是传统科学实验发挥作用的原因:它们旨在捕捉因果信息。而我们在社会中收集的绝大多数数据并非如此。

没有人类的指导或现实世界的知识,统计算法和人工智能只能从原始数据中学习 P(A | B)。这是单独使用数据的基本数学限制。