因果推理方法论的兴起,引发了实证研究领域的一场“识别革命”,其最重要的成果之一是差异-差异法(Difference-in-Differences, DID)的广泛应用,并逐渐成为实证分析中识别因果效应的黄金标准。
一、先来点八卦:因果推理革命
在经济学、社会科学这些领域,大家最头疼的问题就是:到底怎么证明“因果关系”?
举个例子:
* 一座城市颁布了最低工资法,然后就业率变化了。那这个就业率的变化,是因为最低工资法,还是因为经济周期,还是因为刚好世界杯开了大家都懒得上班?
过去的老办法是建一堆“结构模型”,塞进一堆假设,再算出一个结果。但问题是:假设往往是研究者拍脑袋加进去的,别人看了会觉得:“你这不是算命吗?”
于是,因果推理革命来了。核心思想是:先别急着解释机制,先搞清楚有没有因果效应。
在这个浪潮里,实验(尤其是随机对照实验,RCT)被奉为“黄金标准”。但问题来了,社会科学里你不可能随便给一半人涨工资、一半人不涨,对吧?
于是,一大批“准实验方法”横空出世,其中最出圈的就是——差异-差异法(Difference-in-Differences, DID)。
二、DID 的核心逻辑:差上再差
别被名字吓到,其实逻辑很简单,四个字:前后对比,组间对比。
* 有一组人(处理组)被政策影响了,比如 A 城市突然出台了最低工资法。
* 另一组人(对照组)没被影响,比如隔壁 B 城市,啥都没变。
* 我们观察两组人在政策前后的变化:
* A 城市就业率:政策后 - 政策前
* B 城市就业率:政策后 - 政策前
* 然后再拿这两个变化的差值相减,就是 DID。
人话就是:“我先看处理组的变化,再减掉对照组的变化,这样一来,时间趋势和固定差异就被抵消掉了,剩下的东西就更有可能是政策造成的。”
三、和双盲实验有啥不同?
很多朋友会问:这玩意是不是就像“安慰剂对照实验”?
答案是:不一样。
* 双盲实验(RCT):完全随机,把人分到实验组和对照组,安慰剂 vs 真药,因果识别最强,不需要额外假设。
* DID:是无奈之下的“Plan B”。现实世界很多情况下无法做随机实验,于是我们利用政策变化、自然事件这种“外生冲击”,来模拟实验效果。
关键在于 DID 有个大前提:平行趋势假设。
也就是说:如果没有政策,处理组和对照组应该在时间上走向一致。只有这样,你减出来的差才有意义。
举个比喻:
* 如果两辆车(处理组 vs 对照组)在没有政策时,本来就是平行开车的。
* 政策出台后,其中一辆突然加速了。那 DID 会说:“好,这多出来的加速度就是政策效应。”
* 但如果两辆车本来速度就不同步,那你用 DID 算出来的效果就可能是错的。
四、为什么 DID 被说成“因果关系”?
因为它的目标就是把“相关性”剥离出“因果效应”。
在普通回归里,你只能看到“政策和就业率有关”。但 DID 的差中差设计,帮你排掉了一些共同趋势和固定差异,这就离因果更近了一步。
* 时间维度:抵消掉所有大家都经历的宏观冲击(比如疫情、经济危机)。
* 组间维度:抵消掉城市之间本来就存在的固定差异(比如产业结构、文化习惯)。
* 交互项(D×Post):剩下的那一部分变化,更可能是政策“额外带来的”,也就是因果效应。
虽然 DID 不是像 RCT 那样“铁证如山”,但在社会科学里,它几乎成了“识别的黄金标准”。
五、DID 的优点和槽点
优点:
* 简单,直观,容易操作。
* 在非实验环境下,能给出一个靠谱的因果推理框架。
* 在政策评估、制度改革研究里应用极广,已经快成标配。
槽点:
* 平行趋势假设 很难完全验证,只能用“事前趋势检验”之类的间接方法。
* 如果处理组和对照组本来就趋势不同,那 DID 估计就可能偏了。
* 处理效应异质化、动态效应问题,也会让 DID 的结果失真(这几年大家用 event study、合成控制等方法改进)。
六、总结
DID 其实就是:
* 当你没法做随机实验的时候,退而求其次,利用“时间+组间”两重差异来模拟实验。
* 它是一种 特殊的因果推理方法,因为它并不是直接观察因果,而是通过设计一个巧妙的对照逻辑,把噪音剥掉,留下尽量接近因果的东西。
所以,用 DID 的研究,就像在说:
“兄弟,我不能保证这就是 100% 的因果,但我已经尽力排掉了其他可能的干扰因素,现在这个效果,八九不离十是因果。”
在社会科学里,这已经算是很硬核的识别手段了。