数据的相关性或因果关系 - KDnuggets


为什么苏打水和冰淇淋都与暴力有关?本文就人们所说的“相关性并不意味着因果性”给出了最终结论。

苏打水和冰激凌与暴力有关?人们还从数据中得出结论:吸烟、巧克力和卷曲的薯条对你有好处。为什么会这样呢?

冰淇淋和鲨鱼袭击
根据数据显示,冰淇淋的消费与鲨鱼袭击有关。为什么呢?好吧,也许吃冰激凌会让你的味道更好?所以,你吃了冰淇淋,鲨鱼就吃了你。但更被接受的鲨鱼计划是,它是季节性的。碰巧的是,当天气变暖时,更多的人在吃冰激凌,也有更多的人在海里游泳。

这就是说,无论从哪个方向看,都没有因果关系--这些事情都没有导致另一个,甚至是间接的。相反,它们都是由第三个因素引起的。

因此,好消息是,我们已经在数据中发现了这两个因素之间的联系,一种关联,一种相关性--这很有价值。

这两个因素确实是相互预测的。如果我们看到冰淇淋销量增加,我们可以正确地确定鲨鱼袭击的概率更高,反之亦然。

但坏消息是,当我们发现这种相关性时,往往它们的共同原因,一些第三因素,根本就不在我们的数据集中。这些数据没有被包括在内,因为它被忽略了,或者也许它很难收集,或者成本很高。因此,我们被困在一个预测性的相关关系中,但没有明确的因果解释。

苏打水和暴力
现在,苏打水似乎也很危险。2011年,一位经济学教授和一位健康政策研究员公开了他们的研究结果。在青少年中,他们发现,"软饮料和暴力之间有很强的关联......" 他们还写道:"......每周喝超过五罐非饮食类软饮料与参与暴力行动的概率增加9-15个百分点有关......。可能存在直接的因果关系,也许是由于软饮料中的糖或咖啡因含量。"

苏打水在那之后,爆发了媒体报道的喧嚣,标题是:"苏打水完全把青少年变成了杀人犯"。然后怀疑论者开始反击。现在,他们并没有质疑苏打水消费和暴力之间的相关性。相反,他们质疑的是因果关系。

你看,你可以得出结论,在两个因素之间有一个联系,一个连接,一个关联,一个相关性,但不一定了解它为什么是这样。
而”为什么“是涉及因果关系的:对事物如何相互影响的一些洞察力。

你不应该得出汽水导致暴力的结论。相反,这可能是饮食与社会经济地位有关。低收入的青少年消费更多的垃圾食品,包括苏打水,而贫困本身就是青少年暴力的一个风险因素。

现在,如果这个故事是真的,这里显示的因果联系:比如,贫穷导致暴力的确切方式。
重点是,这是一个合理的替代解释,甚至没有苏打水间接导致暴力,所以对苏打水的危险敲响警钟是毫无道理的。

让我换一种说法。即使暴力的人喝更多的苏打水是真的,也没有理由完全相信喝苏打水会让你更暴力。这就好比假设吃更多的冰淇淋会导致更多的鲨鱼袭击。冰淇淋和苏打水可能对你有害,但不是以这种方式。

吃巧克力的人更苗条
总之,现在有一个好消息:一些诱人的恶习对你有好处,如巧克力、吸烟、卷曲的薯条和早餐! ...是那些假定因果关系的人所说的。

巧克力 "更频繁地摄入巧克力与较低的身体质量指数有关",根据发表这一发现的加利福尼亚大学医学和经济学研究人员的说法。他们写道,这种关联 "可能是因果关系",因为巧克力可能减少脂肪的沉积。

引起了媒体的狂热。英国广播公司(BBC)的一个标题宣布:"巧克力'可能有助于保持人们的身材",而《华尔街日报》的一个视频在标题中写道:"它似乎能让你变瘦",并以 "它不会让你变胖 "作为开场。

现在,我想说的是,人们对巧克力的狂热热爱催生了这种一厢情愿的想法和对因果关系的大胆推测......但我又不能真正确定是什么导致了他们的虚伪。这很有趣,因为它是真的。

相关性并不意味着因果关系
总之,发现两个项目之间的相关性并不意味着一个导致另一个,甚至不是间接的。它只是不一定告诉我们任何因果关系的情况。大学的走廊和互联网的聊天室里经常回荡着对这一最重要的、可怕的警告的提醒。

"相关关系并不意味着因果关系"。

统计学家绝对是在屋顶上大喊这条规则,就像大众媒体和大数据黑客们经常忽略它一样。

现在,看看巧克力消费和较低的身体质量指数,另一个合理的因果解释是,人们在减肥时用巧克力奖励自己。也就是说,较低的体重导致了巧克力消费,而不是反过来。

或者,可能是人们吃了更多的巧克力,因为他们一开始就没有试图减肥,因为他们已经很瘦了。

或者另一种可能性是,贫穷与较高的体重有关,也使巧克力变得不那么实惠,所以收入较低的人平均体重较高,但也吃较少的巧克力。

或者可能是所有这些不同因果关系的某种组合。我们不知道。主要的一点是,你必须生活在这种不确定性中,避免在只建立了相关关系的情况下推测特定的因果关系的诱惑。调整你的大脑以接受这种知识的缺乏。

点击标题