数据科学的三个基础常识

每个数据科学家都需要了解这些观点，它们会让你大开眼界。

1.相关性与因果关系
P(A | B) 是指定 B 的 A 的概率。

P(A | do(B)) 是给定 do(B) 的 A 的概率。它是在我们干预导致 B 发生的情况下，我们观察到 A 的概率。

在这里，干预只是指采取某种行动。因此，do(B) 指的是采取导致 B 发生的行动。

P(A | B) 和 P(A | do(B)) 这两个表达式看似非常相似，但它们代表的情况却截然不同。

2.我们只能从数据中学习 P(A|B)。
鲍勃有一个非常准确的天气应用程序，下雨时他总是很自觉地带伞。我们对鲍勃进行了几年的观察，发现每当下雨时，鲍勃总是带着伞，而在不下雨的日子里，他从不带伞。

在概率语言中，我们说 P(Umbrella | Rain) = 1，P(Rain | Umbrella) = 1。

仅从这些数据中，我们就能学会如何通过检查鲍勃是否带伞，以 100% 的准确率预测是否下雨。我们还可以学会通过检查是否会下雨，以 100% 的准确率预测鲍勃是否有雨伞。

我们无法学会的是，如果我们随机选择一天给鲍勃一把伞，会发生什么。这个问题的答案是 P(Rain | do(Umbrella) )，仅从数据中是无法得知的。

我们需要关于世界如何运作的先验知识，才能正确解释我们收集到的数据。我们需要知道，下雨对鲍勃的行为有影响，但鲍勃的行为对下雨没有影响。

除非通过受控实验操作收集数据，否则原始数据中根本没有关于干预效果的信息。

3.科学实验之所以有效，是因为它们能产生一种非常特殊的数据。
你可能听说过很多人所说的科学实验。我们收集了一些物体、动物或人。随机将其分为对照组和治疗组。将你的干预措施应用于治疗组，而不去管对照组。如果您观察到治疗组和对照组之间存在任何差异，那么将这些差异归因于治疗是合乎逻辑的。因此，您可以说这些差异是由治疗引起的。

在统计学中，我刚才描述的程序被称为随机对照试验。它是一种生成特定数据的程序，在这种程序中，

P(Difference | Treatment) = P(Difference | do(Treatment) )

这就是传统科学实验发挥作用的原因：它们旨在捕捉因果信息。而我们在社会中收集的绝大多数数据并非如此。

没有人类的指导或现实世界的知识，统计算法和人工智能只能从原始数据中学习 P(A | B)。这是单独使用数据的基本数学限制。