人工智能承诺要彻底改变放射学,但到目前为止它失败了 - columbia


美国哥伦比亚大学安德鲁于 2021年6月7日发文:原因很简单。我们还没有提供干净的替代方案。仅仅发表论文来展示如何拟合模型是不够的。您需要对其进行编程,并且您需要该程序来处理可能发生在数据上的所有不良事件,而我们还没有这样做。
我们无法访问数据流来尝试想法,而且一切都比我们想象的要难实施,我们在原始数据的一些问题上纠缠不清,而 . . . 好吧,我们最近又回到了这个问题上,所以也许我们会取得一些进展,但关键是很难想出一个可用的替代品,即使是在一个像数字实验室分析这样干净和明确定义的问题中。世界上有很多稀释分析正在进行中,所以理论上我认为会有可用的资金来提高估算的效率,但它并没有发生。放射学的故事不同,因为有更多的钱,但技术和体制方面的问题更加困难。
Geoffrey Hinton 是一位传奇的计算机科学家: Hinton 在 2016 年宣布“我们现在应该停止培训放射科医生时(不需要这些医生了),很明显,五年内深度学习将比放射科医生做得更好。” 美国食品和药物管理局 (FDA) 当年批准了第一个用于医学成像的 AI 算法,现在美国有 80 多种批准的算法,欧洲也有类似数量。
但是之后:
然而,在美国工作的放射科医生的数量是上升而不是下降,在 2015 年至 2019 年间增加了约 7%。事实上,现在放射科医生的短缺预计将在未来十年内增加。发生了什么?放射学领域的惰性人工智能革命是人工智能如何过度承诺和交付不足的另一个例子。
放射学——对图像进行疾病征兆分析——是一项狭义的任务,人工智能可能擅长,但图像识别算法往往脆弱且不一致。. . . 只有约 11% 的放射科医生在临床实践中使用 AI 进行图像解释。在不使用人工智能的人中,72% 的人没有这样做的计划,而大约 20% 的人希望在五年内采用。这种缓慢扩散的原因是性能不佳。. . .
 
黑客新闻网友讨论:
这里与地震解释有很多相似之处。许多公司一直承诺人工智能“彻底改变”解释并消除对地质学家/地球物理学家“乏味”工作。由于各种原因,这对管理层非常有吸引力,因此它获得了大量资金。
 
我在一家风险投资支持的 Radiology+CV/ML 初创公司担任了三年的 CTO+联合创始人,放射科医生(或任何医学专家)基本上可以控制劳动力的供应,并控制最佳实践的标准,基本上通过人为稀缺的方式允许持续高薪。他们究竟为什么要让他们的工作自动化?
 

CRUD 应用程序开发项目经常超过截止日期和预算。ML 项目的风险更大。
 
关于医疗保健的事情是大多数将其自动化的努力都失败了。可以说这是因为没有人“理解”这个领域,也就是说没有人可以给出他们运作方式的编纂总结;医疗保健管道中的每个专业人员都会考虑人体/健康/行为/等方面的 20 种不同的常见变量。这类似于自动驾驶汽车的情况,执行普通任务的能力被许多难以训练的极端情况所淹没。
 
也许,但问题不是 AI/ML 的问题,而是人类的数学很差。我们在贝叶斯逻辑方面很糟糕。尤其是在医学测试方面,医生对此也非常内疚,我们忽略了先验并将贝叶斯中的因素作为最终事实。
但是,人类在贝叶斯逻辑方面很糟糕,却仍然比缺乏大部分数据图片的机器AI好。这就是为什么当务之急不是推动实验室模型,而是推动鼓励合理收集数据的政策变化。这比对模型效率与人类进行理论化相比要困难得多。
 
科学是一步一步发展的,进步是建立在进步的基础上的。我们通过线性回归开始了机器学习。然后我们开始识别数字。然后我们开始识别猫,突然间,谷歌照片可以在它似乎自动吸收的图像中找到我 1994 年的一个朋友。这是惊人的进步。
 
几十年来,人们一直在尝试使用专家系统、流程图和您可以想象的所有其他技术来做到这一点。我的妻子是一名药剂师,他们拥有的软件应该可以帮助他们解决现在令人眼花缭乱的药物数量。与放射学相比,这似乎是一个普通的案例:(在美国)FDA 发布了指南,因此只需将这些指南转换为代码即可,但她发现“没有太大帮助,每隔一段时间,我就会收到一个有用的警报,但大多数都没有帮助,哪怕是一点点。” “主要是误报。”
 
放射科初创公司在这个关键问题上都失败了:要做好工作,您不仅需要自动化图像解释,还需要真正实现整个 EHR 的自动化。
 
放射学是模式匹配和一组非常复杂的决策树。它们不是魔法,因为我们不断地培养出更多的从业者,他们在给定的输入下实现相同的一致输出。任何试图改进事物的人都是常识一点一点地解决复杂的问题。我也强烈反对“放射学比科学更艺术”,因为如果是这样,放射科医生之间将无法就诊断达成一致。
 
我在自然语言处理中看到了同样的事情。许多重要的细节来自文档的四个角之外。具有讽刺意味的是,机器学习人员一般反而试图说服人们机器学习可能不适合他们的问题。或者,更糟糕的是,采取一些更模糊的立场,比如“是的,我们可以用机器学习解决这个问题,但实际上它比付钱给人工来做要花更多的钱。”
事实上,大多数NLP软件都忽略了文档的格式设置,而文档格式也传递了大量的信息。例如,章节标题必须与构成章节正文的文本区别对待。甚至很难确定节标题,也很难利用它们,因为大型transformer模型只接受一个非专用标记流。
 
医生的主要任务之一是处理病人的模糊和不具体的问题,与他们建立融洽的关系,了解什么是正常的,什么是不正常的,处理当时“不相关”的信息,并将结果集中到有限的可能性树中。
原则上,对于ML算法来说,这将是一项艰巨的任务。都是条件概率。但每一个这样的系统都未能做到这一点。医生贝叶斯是:他们做的先验知识来自于他们作为社会成员的个人经历和专业培训。