数据分析中不进行数据分组会产生辛普森悖论 - TivadarDanka


如果不对数据进行分组,则会在您不注意时,根据数据得出的结论可能会随时逆转,这被称为辛普森悖论,它在理论上和实践中都对数据分析造成了严重破坏。
让我们看一个现实生活中的例子。假设我们用 A 和 B 治疗肾结石。在 350 名患者中,A 对 273 例有效,B 在 289 例中有效。(数据来源
仅基于表面这些数据,我们可以得出结论,B 更有效。
然而,令人惊讶的是,事实并非如此。
你能想出一个合理的理由吗?

事实证明,并非所有的肾结石都是一样的。
我们可以将它们分成两组:小石头和大石头。
在接受治疗 A 的患者中,87 人有小结石,263 人有大结石。
B的比例不同:270有小石头,80有大石头。

通过计算每组的成功率,我们可以看到,A对小石头和大石头都更有效!这就是辛普森悖论。

各组出现的趋势逆转就是辛普森悖论。

为什么会出现这种情况呢?
我们可以看到导致趋势逆转的两个原因。

  • 1.小组规模不平衡。
  • 2. 更容易治疗的组别(小结石)在治疗B中占的比例过高。

这不仅仅是肾结石。这里有一个很好的视频,解释了辛普森悖论如何使COVID疫苗接种看起来没有效果,尽管这与事实相去甚远。
这里是另一个说明辛普森悖论的优秀可视化。