大模型不适用于临床管理：对真实世界电子健康记录中结构化查询的评估

#AI医疗 #数据科学教程 #大语言模型LLM #幽默梗文模因

2026-05-17 banq

西奈山的研究人员让人工智能执行最基本的医院管理任务：统计病人数量、按年龄筛选、应用排除标准。这些都是数据分析师每天都会做的简单表格操作。

人工智能失败了。即使是只有 25 行的表格也失败了。

并非因为它不理解问题。它完全理解了。它失败的原因在于它试图自己计算，而不是使用工具。它出现了计数错误。它听起来信心满满。结果却错了。

然后，他们赋予模型编写和执行代码的能力。之前失败的模型准确率几乎达到了完美。同样的问题，同样的数据，不同的架构。

这是目前临床人工智能领域最具实际意义的研究成果之一，由西奈山的 Klang 等人于本月发表在 PLOS Digital Health 期刊上。他们测试了九个模型，针对 5 万例真实的急诊就诊记录，进行了 32950 次查询。

所有测试模型的结果都一致。直接提示：准确率低，且随着表格规模增大而急剧下降。链式提示：略有改进，但规模扩大后仍然下降。基于工具的方法（模型编写代码，代码执行计算）：近乎完美。

这对医疗保健行业的影响立竿见影。每个部署人工智能执行行政任务的医疗系统都需要理解这一区别。如果您要求逻辑学习模型 (LLM) 直接对电子病历 (EHR) 中的结构化数据进行计数、筛选或聚合，那么您的用法就错了。模型应该能够理解您的需求，并将计算工作委托给直接在数据库上执行的代码。

这一原则在临床人工智能领域也普遍存在。表现最佳的模型从不单独使用，而是嵌入到混合工作流程中。在混合工作流程中，人工智能负责解释、意图识别和推理，而传统工具则负责计算、检索和执行。

如何使用模型比使用哪个模型更重要。当然，使用哪个模型也很重要，因为每个模型都有其独特的优势。架构和能力都是变量。只针对其中一项进行优化的医疗系统，其性能会逊于同时针对两者进行优化的系统。

极客辣评

我理解这项研究的价值，但我相信作者们也会同意，如果使用 Codex 或 Claude Code 重复这项研究，那么这个吸引人的标题就必须去掉。

大多数学术医学研究都面临着同样的问题，即时间延迟和模型过时。