数据分析中不进行数据分组会产生辛普森悖论 - TivadarDanka

如果不对数据进行分组，则会在您不注意时，根据数据得出的结论可能会随时逆转，这被称为辛普森悖论，它在理论上和实践中都对数据分析造成了严重破坏。
让我们看一个现实生活中的例子。假设我们用 A 和 B 治疗肾结石。在 350 名患者中，A 对 273 例有效，B 在 289 例中有效。（数据来源）
仅基于表面这些数据，我们可以得出结论，B 更有效。
然而，令人惊讶的是，事实并非如此。
你能想出一个合理的理由吗？

事实证明，并非所有的肾结石都是一样的。
我们可以将它们分成两组：小石头和大石头。
在接受治疗 A 的患者中，87 人有小结石，263 人有大结石。
B的比例不同：270有小石头，80有大石头。

通过计算每组的成功率，我们可以看到，A对小石头和大石头都更有效！这就是辛普森悖论。

各组出现的趋势逆转就是辛普森悖论。

为什么会出现这种情况呢？
我们可以看到导致趋势逆转的两个原因。

1.小组规模不平衡。
2. 更容易治疗的组别（小结石）在治疗B中占的比例过高。

这不仅仅是肾结石。这里有一个很好的视频，解释了辛普森悖论如何使COVID疫苗接种看起来没有效果，尽管这与事实相去甚远。
这里是另一个说明辛普森悖论的优秀可视化。