美国在卫健等民生领域应用AI预测因果关系的失败经验教训以及能判断因果的AI新方法 -ssir

因果AI可以识别行为或事件的根本原因，并提供预测模型无法提供的关键见解。但是如果使用现有所谓预测性AI来预测因果行为可能导致毁灭性的政策错误。卫生健康医保领域必须学会应用因果模型AI，以更好地解释人们为何以自己的方式行事，从而帮助确定最有效的改革手段。

AI误判因果的案例
常用的许多人工智能（AI）都用于预测人们的行为。它试图预期您的下一次购买，您的下一次单击鼠标以及您的下一次工作变动。但是，当这些技术用于分析健康数据时，可能会遇到问题。如果我们不知道行为的根本原因，那么我们很容易做出错误的决定，从而做出无效和偏见的政策。
例如，人工智能使医疗保健系统能够预测哪些患者可能具有最复杂的医疗需求。在美国，风险预测软件已应用于大约2亿人，根据他们将来可能花费多少医疗费用来预测哪些患者现在将从额外的医疗服务中受益。它采用了预测性机器学习，这是一类自适应算法，可以在提供新数据时提高其准确性。但是，正如健康研究者Ziad Obermeyer和他的同事在《科学》杂志最近的一篇文章中所表明的那样，这种特殊的工具具有意想不到的后果：未被标记为需要额外护理的黑人患者慢性病患者比白人患者多。
。
什么地方出了错？该算法使用保险理赔数据根据患者最近的健康费用预测患者的未来健康需求。但是该算法的设计者并未考虑到，黑人美国人的医疗保健支出通常比健康状况类似的白人美国人低，这是由于与他们的病情无关的原因，例如，获得医疗保健的障碍，医疗保健不足，或缺乏保险。
用医疗保健费用代替疾病可以使预测算法提出对白人患者准确的建议：他们花费医疗保健费用的减少是由于较少生病的结果，但在黑人患者中却长期存在“种族歧视”。
研究人员然后通知AI系统制造商，制造商使用自己的数据进行了测试，确认了问题所在。
这个故事说明了某些类型的AI的危险之一。无论多么复杂的预测算法及其用户都陷入将因果关系视为对等的陷阱，换句话说，认为因为事件X早于事件Y，所以X必定是Y的原因。预测模型就是这样建立事件与结果之间的相关性的。然后它就自以为是认为：“当我们观察X时，我们可以预测Y将会发生。”
但导致Y发生原因是由于不同原因导致的，就卫生保健算法而言:较高的疾病发生率（X）与白人患者较高的卫生保健费用（Y）具有正确的相关性，同时也有因果关系：因为X导致了Y结果，对于白人患者，将医疗保健费用用作未来疾病和医疗保健需求的预测指标是准确的。但是对于黑人患者，较高的患病率通常不会导致较高的费用，并且该算法无法准确预测其未来的医疗需求。两者有相关性但没有因果关系。
随着世界越来越多地使用AI帮助解决紧迫的健康和发展挑战，这一点至关重要。当相关性被误认为是因果关系时，在医疗，司法和农业等各个领域中完全依赖AI的预测模型可能会带来灾难性的后果。

AI能够预测因果的好处
因此，决策者还必须考虑另一种AI方法：因果AI，这有助于确定因果关系的精确关系。确定结果的根本原因并不是AI的唯一优势；通过使用因果AI算法提出假设问题，还可以对可以改变那些结果的干预措施进行建模。例如，如果实施了特定的培训计划来提高教师的能力，那么我们期望学生数学考试成绩提高多少？通过模拟方案来评估和比较干预（或一组干预）对结果的潜在影响，可以避免在现场进行冗长测试的时间和费用。
当然，如果正确应用和使用预测性AI算法，则可以发挥重要作用。精确农业就是一个很好的例子，它使用预测性AI处理来自卫星图像和传感器的数据，以帮助农民预测作物产量，检测疾病和杂草以及识别不同植物种类。但是，能够预测结果与理解实际导致结果的方法不同。预测今年农民的农作物减产是一回事，了解为什么可以采取措施增加收成则是另外一回事。

现有AI预测模型的缺陷
仅使用预测模型的另一个挑战是根本缺乏关于为什么它们首先做出特定预测的知识。这是深度学习的一个问题- 深度农业中的一种预测性AI。深度学习的灵感来自于人脑细胞的组织方式（在“层”中）以及它们如何相互通信（从一层的细胞获取输入信号，转换信号并将转换后的信号输出到另一层的细胞）。
与常用的预测结果的方法（例如回归）不同，这是一种传统的统计技术，可以通过一个最佳数学公式将变量之间的关系映射到预期结果—深度学习可以将变量映射到结果之间的关系更为复杂。
通过组合输入变量和结果之间的多层，深度学习算法可以学习比单个数学公式复杂得多的输入-输出关系，并使用它们来预测结果。但是，变量之间的链接和中介是“黑匣子”的，这意味着算法的用户，甚至是创建者，都无法轻易辨别变量与结果和彼此之间的关系。这意味着通常不可能知道深度学习模型使用了哪些输入功能进行预测。

在处理人们的生活轨迹时（例如在美国刑事司法系统中），这种不透明是不可接受的。2016年，有230万美国成年人或III人中的一人入狱，对联邦政府和州政府而言都是一笔巨款。美国各地的法院都采用了“累犯分数”，以通过减少不增加犯罪的囚犯人数来降低监禁成本。累犯分数是通过预测算法得出的单个数字，该算法估计被定罪的人会再次犯罪的可能性。从理论上讲，该分数使法官有可能专注于监禁那些更有可能犯下其他罪行的人，甚至应有助于消除判决中的潜在偏见。但是，累犯评分本质上是错误的，因为它们基于风险评估工具，这些工具可以获取统计相关性而不是因果关系。例如，低收入与犯罪有关，但这并不意味着它会导致犯罪。然而，低收入家庭的人们可能会自动获得较高的累犯评分，因此，他们更有可能被判入狱。固定刑事司法系统需要着重于了解犯罪原因，而不仅仅是其相关性。
仔细研究因果AI将显示它如何打开纯预测性AI模型在其中运行的黑匣子。因果AI可以超越相关性，以突出因果之间的精确关系。

试图检验因果关系的随机对照试验
在卫生健康医保部门中，检验因果关系的重要性都不是新的。一种简单的方法是对被随机分配到一个人群中的人群进行干预，即治疗组，而对其他相同人群（即对照组）则不进行干预。通过比较两组的结果，可以隔离干预的效果。在临床研究中，这被称为随机对照试验，而在市场研究中，这被称为A / B测试。
发展经济学家Michael Kremer，Abhijit Banerjee和Esther Duflo因引领随机对照试验的应用来确定发展问题的根本原因并设计解决方案而荣获2019年诺贝尔经济学奖。这推翻了关于因果关系的一些传统观念：例如，许多观察性研究已确定维生素D缺乏与糖尿病，高血压，心血管疾病和癌症的风险增加之间的关联。但是随机对照试验表明，维生素D补充剂并不能降低这些疾病的风险，他们还没有发现维生素D补充剂与健康结果之间的因果关系。
这说明随机对照试验有其局限性。要求有大量的个人数据来确保结果不会因年龄、性别、健康状况或受教育程度等偶然的、异常的特征而受到偏见或影响。这往往使这种试验极其昂贵（数百万美元）并且很耗时（它们可能需要花费数年时间才能进行）。此外，尽管健康和社会成果复杂，并且有许多潜在的驱动因素，但随机对照试验一次只能测试一种或最多几个捆绑干预的效果。最后，他们只能预测干预是否会对治疗组的典型成员产生影响，而不会对特定个体产生影响。
这就是因果AI的用武之地。它提供了新的机会，可以更快，更有效地测试个人和人群中的因果关系，并具有揭示潜在复杂性的能力。它使研究人员和程序设计人员可以依靠已有数据来模拟干预并推断因果关系。

发现因果关系的两种方法
有两种基于长期已知原理的因果AI方法：潜在结果框架和因果图模型。
这两种方法都可以使用实际数据测试潜在干预的效果。使它们成为AI的是强大的基础算法，可用于揭示大数据集中的因果模式。但是它们在可以测试的潜在原因数量上有所不同。

要了解这两种方法以及它们的工作方式以及它们的区别，请考虑以下假设情况：研究人员想发现反吸烟广告活动是否能说服人们戒烟，但没有对照组，因为这些广告是在全国范围内发行的。他们只有一个数据集，显示个人是否接触过广告，是否戒烟，以及有关人口统计学和其他健康行为的信息。即使没有对照组，因果AI也可以提供推断因果关系的方法。
由统计学家Paul Rosenbaum和Donald Rubin在1983年提出的潜在结果框架，将看到过戒烟广告后戒烟的个人数据与未看到广告的“潜在结果”进行了比较。当然，面临的挑战是对于那些没有看到过戒烟广告的人如何分析因果？对于每个接触过广告的个人，AI算法都会在数据集中找到一个没有接触过广告但在其他重要方面（例如年龄，种族和教育程度）与之相同的个人。换句话说，将一个人工对照组进行逆向工程以模仿随机对照试验。局限性在于，它勉强能够解决没有对照组的问题，
相比之下，因果图模型所要做的不仅仅是测试一对变量的因果关系。它们可以用作探索工具，将所有不同的因果关系映射到感兴趣的结果，并显示不同变量之间如何相互关联。将因果图应用于我们的反吸烟活动可能表明，在药房中接触广告会导致某些人直接停止吸烟，而有些人则会购买尼古丁贴片，从而导致他们戒烟。

有几种因果图模型，一种广泛使用的方法是结构方程模型，研究人员在其中指定可能相互作用的变量以及相互作用的方式，然后该模型对数据进行分析以揭示它们是否确实相互作用。尽管此模型可以测试数据中的许多此类关系，但需要使用现有知识来指定不同变量之间的交互的整个网络。该模型的局限性在于，它仅测试假设变量之间的链接：如果在指定变量中没有包含实际引起影响的变量，则不会针对其他选项进行评估。

另一种因果图方法是因果贝叶斯网络，该术语由计算机科学家和哲学家朱迪亚·珀尔（Judea Pearl）在1980年代创造，并以18世纪的英国统计学家托马斯·贝叶斯（Thomas Bayes）命名。该方法估计数据集中所有变量之间的关系。它会生成直观的可视化地图，显示哪些变量会相互影响以及影响的程度。这种方法的优点是，与结构方程模型不同，不需要在测试之前指定这些相互作用，这使其成为一种真正的发现方法。
尽管因果贝叶斯网络需要大量数据来捕获可能的变量，但由于多种原因，这种方法的潜力令人兴奋。它使得能够同时进行多个因果关系的数据驱动发现。在反吸烟广告活动的示例中，一个因果的贝叶斯网络可以显示：广告与其他不同戒烟手段的可用性如何分别影响人们的行为，或者可以揭示个人愿望如何发挥作用。同样重要的是，与预测性AI的黑盒子不同，在因果性AI方法中，研究人员，计划实施者和决策者可以看到变量（广告宣传、尼古丁贴片的可用性）与结果（停止吸烟）之间的关系。
因果图形模型还可以同时模拟许多可能的干预措施。例如，如果不同的反吸烟广告针对不同的年龄段或将一般运动与同伴教育者的推广相结合会怎样？它们还允许整合专家知识来应对纯数据驱动方法的可能限制。例如，专家可以帮助确定哪些变量应进入模型，他们可以在模型上放置条件以提高其准确性，并且可以帮助理解与直觉相反的结果。

因果AI有用应用的案例
因果AI领域正在迅速发展。随着其潜力越来越明显，研究人员正在将其应用于气候变化和健康等各个领域，证明了其广泛的潜力。

气候变化：因果AI技术已应用于气候变化，以了解人类是否以及如何成为其促成因素之一，以及推动人们对气候变化的信念的原因。为了研究这个问题，英国科学家在潜在结果框架中使用了一种因果性AI技术（称为反事实事件归因）来确定人为产生的温室气体排放是否是导致 2003年欧洲致命热浪的根本原因，据估计，这种热浪是造成更多人死亡的原因。超过70,000人死亡。利用历史数据，太阳数据，有关火山喷发的信息以及有关温室气体，气溶胶和臭氧的大气数据，研究人员模拟了2003年整个欧洲的夏季温度，无论有无人类影响。他们发现，当模型包含航空旅行或电力生产等活动时，发生热浪的可能性要比排除这些影响时的可能性高得多。这是2004年发布的第一批将极端天气事件与人类活动联系起来的研究之一，它为减少此类活动所产生的温室气体提供了有力的论据。联合国政府间气候变化专门委员会援引了这项研究。

因果AI还确定了导致人们对气候变化的看法更加两极分化的因素。研究人员对来自美国和澳大利亚的参与者进行了调查，并使用贝叶斯网络建模不同的人如何回应一系列有关气候变化的信息。他们发现，当在线调查中获得有关气候变化的共识信息时，积极不信任气候科学家的美国人会通过更新他们的世界观变成相信气候科学家。这个因果框架提供了一种新的方式来估计世界观、科学信念和对科学家的信任之间的相互联系。这样的见解对于树立公众对采取行动应对气候变化的必要性的认识至关重要。这样的结果提供了一种设计介入式消息传递的框架，该框架考虑了参与者根据其信念和背景如何对信息做出反应。

儿童腹泻：因果AI提供了解决其他方法未成功解决的广泛而复杂的健康问题的机会。儿童腹泻就是一个例子。这种疾病是全球5岁以下儿童中第二大死亡原因。腹泻与许多因素有关，但要弄清腹泻病的生物学和结构上的病因途径是非常具有挑战性的。这使得设计有效的干预措施变得困难。
一个研究巴基斯坦的国家调查使用了来自15,000多个家庭的110,000多个个人的数据。该调查包括家庭，社会，环境和经济变量。当使用传统的统计技术多元回归分析时，研究人员发现了12个与腹泻显着相关的家庭变量。但是，这些并不容易解释：例如，一个变量是家庭的房间数。相比之下，使用因果贝叶斯网络分析同一数据集产生的网络图揭示了三个直接影响儿童腹泻病的变量：使用干坑式厕所而不是连接排水管的厕所；依靠非自来水，河水或溪流水；并且缺乏正式的垃圾收集。

孕产妇和新生儿死亡率：在许多低收入国家，母亲及其新生儿的死亡率仍然居高不下。在保健机构分娩的妇女对于母婴的生存和福祉至关重要。通过一项全国性的奖励计划，该计划向那些在保健机构分娩婴儿的家庭提供报酬（用于医院分娩的费用为300印度卢比[约合4美元]，如果母亲也使用产前护理，则另外支付300印度卢比），印度政府能够迅速提高机构提供率。但是，在许多印度邦，这一趋势已稳定在80％左右。
在Surgo基金会，我们试图了解为什么妇女不选择机构分娩，以及需要哪种其他干预措施才能使她们这样做。我们的工作使用多种技术，包括因果AI来确定为什么有些家庭仍然决定在家分娩。在拥有超过2.3亿人口的北方邦，我们进行了几次大规模的定量调查，以衡量大量潜在的机构交付驱动力。然后，我们使用因果贝叶斯网络来发现驱动此行为的变量，并确定哪些是公共卫生干预措施中最有希望的目标。
各种各样的变量与在医疗机构中的提供相关，但是因果AI识别了直接原因。令我们惊讶的是，与通常的看法相反，母亲离医疗保健设施距离并不近，其中之一是交通便利性。这建议政府应该解决交通问题，而不是在家庭附近建立更多的医疗设施。我们还惊讶地发现，关于在医院分娩是否比家庭分娩更安全的信念比关于医院清洁度，员工能力和员工偏见的信念更为重要。制定交付计划也增加了机构交付的可能性；母亲的经济激励意识也得到了证实，从而验证了政府激励计划的影响。

七项建议按比例
渴望改进流程，解决问题和提高效率的企业和政府正在采用AI。同样重要的是，从事健康与发展问题的人们研究并扩大因果AI的使用范围。它提供了一种超越纯预测性AI的明显优势的方法。预测模型可以提供强大且通常准确的信息，例如识别乳房X线照片的结果是否可能是乳腺癌。但是因果AI可以帮助您确定行为或事件的根本原因网，并提供预测模型无法提供的关键见解，从而可以导致产生积极结果的更有效干预措施。而且，因果AI不能在黑匣子内运作。
三个趋同因素表明因果AI时代已经来临：

首先，人工智能领域的进步突显了因果方法的许多应用，并且随着模型的完善，扩展和应用于新情况下，人们将进一步了解其价值和局限性。
第二，大规模数据集变得越来越容易获得。就像4K超高清电视每平方英寸屏幕上的像素比旧的标准清晰度电视多得多，更多的数据使预测更加清晰，准确，并增强了因果网络收集的见解的信心。
最后，卫生和发展部门越来越重视精确度政策，即提出效果最强的干预措施，以便将有限的资源部署到可以发挥最大作用的资源上。

成功采用这些方法的道路将需要一些工作。以下是七个可以促进因果AI的采用和使用的建议。

更好地利用数据并提高其质量。在过去的十年中，已经进行了几次大规模的数据收集工作。但是，这些数据集经常没有得到充分利用，可以进一步挖掘以获取更多见解。尽管我们看到数据在增长，但其他挑战仍然存在。数据集通常是零散的并且质量各不相同。链接不同的数据集也是一个挑战，例如，当一个数据集的信息记录在个人级别，而另一个数据集的记录在区域或国家级别时。设计通用指标以用于一国的所有数据收集工作，将有助于在数据集建立链接后从中获得最大的收益。
收集更全面的数据。成功应用因果AI需要理解所有可能导致行为发生的变量-政策和法律等结构性因素，以及个人的信念，动机，偏见和影响者。如果在收集有关重要数据的先前假设过多的情况下进行了数据收集，则可能会遗漏真正构成行为或事件基础的因果变量，从而导致建立错误的因果关系。
设计可扩展的高性能开源工具，以应用因果AI算法。专有的算法平台价格昂贵，因此卫生和开发部门经常无法访问它们。从长远来看，开放源代码使软件免费，更易于访问且质量更高，因为更多的人可以检查源代码并提供反馈。一些开源算法（例如bnlearn）可用，但是它们的准确性和速度需要提高。不是因果AI专家的从业者需要知道他们应该采取哪些步骤在自己的领域中应用这种方法。Surgo Foundation正在开发工具，以降低进入门槛，并帮助因果性AI刚起步的组织避免流程陷阱。一个示例是开源工具评估给定数据集是否适合贝叶斯网络的应用，以及哪种算法最适合在其上使用。Surgo还在开发工作流程指南，以帮助因果AI从学术研究过渡到该领域的实际应用。
将人工智能与人类智能相结合。纯粹由数据驱动的方法不能单独解决开发问题。在整个过程中必须包括专家知识，以确保研究人员和程序开发人员正确解释因果关系网络。专家可以通过添加约束来提高因果AI的性能，这些约束应反映系统在地面上如何工作的实践知识，并确定数据中是否缺少已知的混淆变量。并且，随着因果AI的使用增加，伦理学家和政策专家将扮演重要角色，以确保这种方法避免有时会困扰预测AI模型应用的偏见或不准确之处。
改进评估算法性能的方法。计算机科学家正在研究提高因果AI算法的准确性和整体鲁棒性的方法。评估因果模型准确性的一种典型方法是将结果与已知因果关系进行比较。但是，如果没有已知的因果关系来验证模型，研究人员应该怎么做？（毕竟，发现这些关系通常首先是执行因果AI的目标。）此外，如果因果AI模型的结果与现有专家知识发生冲突会怎样？一种解决方案可以是生成具有类似于真实数据集的特征但具有变量之间的预定因果关系的人工数据集。
证明因果AI在发展领域的价值。我们上面概述的示例功能强大，但数量很少。对正在开展的工作有更广泛的了解将有助于刺激因果方法的采用。Surgo基金会正在使用因果AI来了解如何优化一线卫生工作者的绩效，如何决定我们应该扩大哪些干预措施以改善学生的学习情况以及如何提高对现代计划生育方法的接受程度。随着基金会的发展，我们希望测试因果AI在农业和气候变化等领域的应用。
建立关键利益相关者的意识和知识。因果人工智能对于外地人来说仍然是一个非常新颖的概念。需要开展工作向决策者和资助者解释其潜力；项目经理；以及可以应用因果AI的许多领域的监控和评估专家，以便他们至少从概念上理解这些方法。

总结
为了理解世界，人类考虑并分析了重复的模式。从创建用于解释天气的神话到使用严格的数据收集和数学模型来预测下一个降雨或飓风路径，我们已经走了很长一段路。但是我们不断地遇到我们所能观察到的限制以及可用于分析数据的方法的限制。
因果AI是下一个合乎逻辑的步骤，通过最近的技术改造和数据的日益普及，使因果AI成为可行。它比社会科学中的其他学科（甚至是预测性AI）的优势在于，它可以帮助确定直接导致特定行为或结果的确切因果关系，并且可以有效地测试改变这些行为或结果的不同方法。这一优势使研究人员和从业人员能够专注于干预措施的最佳组合，以解决当今一些最关键的问题，从气候变化到医疗保健。更好的因果推理将帮助程序以更少的资源做更多的事情，并减少浪费的时间。通过将因果人工智能与人类专业知识相结合，
最终，了解复杂问题背后的“原因”可以帮助我们了解世界的实际运作方式，进而确定正确的行动以实现预期的结果。我们可能仍然发现，一盎司因果人工智能会赢得一磅的预测。