哈佛大学最新试验显示,AI在急诊分诊诊断中准确率高达67%,超过人类医生的50%-55%。研究发现AI能发现医生忽略的关键病因,但不会完全取代医生,而是形成“医生-患者-AI”三方协作新模式。
原文标题
AI outperforms doctors in Harvard trial of emergency triage diagnoses
作者背景
Robert Booth,资深科技医疗记者
AI看病比医生还准?哈佛试验结果让人坐不住了
别急着关页面,这事跟你我有关系。哈佛大学搞了个大新闻,他们让AI和医生比赛看病,结果AI赢了。准确率67%对医生的55%,十个病人里AI能多看对一两个。这还只是急诊分诊的情况,就是病人刚被推进医院那会儿,啥资料都不全,医生急得满头汗的那种场景。
你说气人不气人,机器反而在这种高压情况下表现更好。但别慌,医生暂时还不会失业,只是以后看病可能变成三人局:你、医生、AI。
这场考试到底怎么比的
比赛分两个回合。
第一回合是真刀真枪的实战,波士顿一家医院的76个真实急诊病人。每个病人到的时候,AI和两位人类医生拿到一模一样的电子病历,上面写着病人心跳血压、年龄性别,还有护士写的几句话比如“胸口疼”“喘不上气”之类的。就这些信息,不能再多了。结果AI猜对或者猜得非常接近的占67%,人类医生只有50%到55%。换句话说,每看十个病人,AI比医生多看对一两个。别小看这一两个,在急诊室里这可能是生死差别。
第二回合是比长期治疗计划。给AI和46个医生看五个病例,要他们出治疗方案,比如抗生素怎么用、临终关怀怎么搞。AI拿了89分,医生们用传统方法比如上网搜资料,只得了34分。这差距就大了去了,差了将近两倍。你可以理解为医生还在翻书查资料的时候,AI已经把方案写好了,而且质量还更高。
AI是怎么发现医生漏掉的东西的
有一个病例特别能说明问题。一个病人肺部有血栓,症状越来越重。人类医生看完病历觉得是抗凝药没用,得换药。但AI不这么认为,它注意到病历里写着病人有狼疮病史。狼疮这个病会影响全身,包括肺部发炎。AI推断说可能不是抗凝药失效,而是狼疮导致肺部的炎症让症状加重了。
后来证实AI是对的。这个细节医生不是不知道,而是在忙乱中忽略了。AI不会累不会慌,它把病历每个字都认真读了一遍,就这么简单。
医生要卷铺盖走人了吗
别急着给医生写挽歌。研究人员说了,这次试验只测试了AI看文字病历的能力。急诊室里医生还要看病人实际的样子,比如病人脸色多难看、喘得多厉害、是不是疼得直不起腰。这些东西AI还没法测。所以目前AI更像一个特别厉害的助手,你把病历给它,它给你第二意见。
哈佛医学院AI实验室负责人曼莱直接说了,这不代表AI会取代医生,但确实说明医疗技术正在经历深刻变革。说白了,以后医生多了一个得力干将,不是多了一个竞争对手。
以后看病变成三个人一台戏
波士顿贝斯以色列医疗中心的罗德曼医生提出了一个新概念,叫“三方照护模式”:医生、病人、AI系统。未来十年会是这个格局。什么意思呢?你去看病,AI先帮你分析病历和检查结果,给出几个可能的诊断和治疗方案。医生再结合AI的建议和你本人的情况,跟你商量到底怎么治。AI不会直接跟你说“你得了什么病”,它只给医生提供参考。最后拍板的还是医生,做决定的还是你。
罗德曼医生特别强调,病人需要的是真人医生陪着他们走过生死攸关的时刻,这点AI永远做不到。
医生们已经在用AI了
别以为这事离我们很远。上个月刚出的调查说,美国差不多每五个医生里就有一个已经在用AI帮忙诊断了。英国那边也不落后,16%的医生每天用,还有15%每周至少用一次。主要用途就是临床决策,也就是决定怎么治。
英国皇家医师学院的调查显示,医生们最担心两件事:一是AI出错怎么办,二是出错谁负责。这个担心很实在,因为现在还没有明确的法律框架说AI误诊了谁担责。是开发AI的公司?是医院?是用了AI建议的医生?罗德曼医生说这个问题现在没答案。
AI不是万能的神
谢菲尔德大学的邢伟助理教授泼了点冷水。他说有迹象表明医生可能会不知不觉地依赖AI的判断,而不是自己独立思考。用多了可能就懒得想了,AI说啥就是啥。这个问题随着AI用得越来越普遍会变得更严重。他还指出一个更扎心的问题:这次试验没有告诉我们AI对哪些病人诊断得不好。是不是老年病人准确率就低了?是不是英语不是母语的病人AI就看不懂了?这些都不知道。
所以邢教授说得很直接:这次试验不能证明AI在日常医疗中是安全的,普通人不应该随便找个免费的AI工具来代替医生。这个提醒很重要,因为现在ChatGPT谁都能用,但用它给自己看病,风险很大。
下一步会发生什么
爱丁堡大学医学信息学中心的哈里森教授说这次研究意义重大,因为它证明AI不再是只会考试做题的机器,而是开始成为临床上真正有用的第二意见工具。特别是在需要考虑更多可能性、避免漏掉重要东西的时候,AI很有价值。说得直白点,医生可能会因为下意识的偏见或者太忙只想到几种常见病,AI没有这些限制,它能把几百种可能都列出来。
接下来要做的事情包括建立问责机制、测试AI在不同人群中的表现、搞清楚医生怎么跟AI配合最好。这些都需要时间,但方向已经很清楚了。
总结一下这事到底有多大
哈佛这个试验告诉我们三件事。
第一,AI已经很能干了,在处理文字病历信息方面超过了人类医生。
第二,医生暂时不会被取代,因为看病不光是看文字,还要看来就诊的人。
第三,以后医疗会变成三方合作,AI帮医生收集信息和分析数据,医生做诊断和决策,病人自己掌握最终选择权。这可能是未来十年医疗领域最大的变化之一。
货运行业:无人驾驶真的来了
从休斯顿到哈钦斯231英里完全无人驾驶,没有安全员、没有远程遥控,这是一个实打实的里程碑。赫希巴赫一次性部署500辆自动驾驶卡车,说明这不是试点,是规模化商业运营。
对长途卡车司机来说,这不是"未来可能"的问题,是"正在发生"的问题。混合车队模式(人类+AI司机)可能是过渡方案,但方向很明确:货运行业的人力需求会大幅下降。
创意行业:漫威画师被裁,AI进入内容生产核心
迪士尼裁员波及漫威视觉开发团队,从业16年的资深画师也被解雇。演员公开谴责用生成式AI取代人类艺术家。
这个信号很强烈:AI生成图像的质量已经达到了商业级标准,而且成本优势明显。对好莱坞这种高度商业化的体系来说,"用AI做概念图、背景、部分资产"正在成为常态。创意行业的核心岗位——那些需要审美判断和经验积累的岗位——也开始受到冲击。
民意调查和金融审核:AI正在吃掉"知识型白领工作"
民调公司用AI替代人工采访,抵押贷款的行政处理被AI接管。这些工作以前被认为是需要专业判断、沟通能力的"白领工作",现在因为AI成本太低、效率太高,正在被快速替换。