大模型不适用于临床管理:对真实世界电子健康记录中结构化查询的评估


西奈山的研究人员让人工智能执行最基本的医院管理任务:统计病人数量、按年龄筛选、应用排除标准。这些都是数据分析师每天都会做的简单表格操作。

人工智能失败了。即使是只有 25 行的表格也失败了。

并非因为它不理解问题。它完全理解了。它失败的原因在于它试图自己计算,而不是使用工具。它出现了计数错误。它听起来信心满满。结果却错了。

然后,他们赋予模型编写和执行代码的能力。之前失败的模型准确率几乎达到了完美。同样的问题,同样的数据,不同的架构。

这是目前临床人工智能领域最具实际意义的研究成果之一,由西奈山的 Klang 等人于本月发表在 PLOS Digital Health 期刊上。他们测试了九个模型,针对 5 万例真实的急诊就诊记录,进行了 3​​2950 次查询。

所有测试模型的结果都一致。直接提示:准确率低,且随着表格规模增大而急剧下降。链式提示:略有改进,但规模扩大后仍然下降。基于工具的方法(模型编写代码,代码执行计算):近乎完美。

这对医疗保健行业的影响立竿见影。每个部署人工智能执行行政任务的医疗系统都需要理解这一区别。如果您要求逻辑学习模型 (LLM) 直接对电子病历 (EHR) 中的结构化数据进行计数、筛选或聚合,那么您的用法就错了。模型应该能够理解您的需求,并将计算工作委托给直接在数据库上执行的代码。

这一原则在临床人工智能领域也普遍存在。表现最佳的模型从不单独使用,而是嵌入到混合工作流程中。在混合工作流程中,人工智能负责解释、意图识别和推理,而传统工具则负责计算、检索和执行。

如何使用模型比使用哪个模型更重要。当然,使用哪个模型也很重要,因为每个模型都有其独特的优势。架构和能力都是变量。只针对其中一项进行优化的医疗系统,其性能会逊于同时针对两者进行优化的系统。

极客辣评

我理解这项研究的价值,但我相信作者们也会同意,如果使用 Codex 或 Claude Code 重复这项研究,那么这个吸引人的标题就必须去掉。

大多数学术医学研究都面临着同样的问题,即时间延迟和模型过时。