Gemini 3.0 Pro在RadLE v1测试中以51%-57%准确率首次超越放射科规培医生(45%),但仍远低于专家级(83%),标志AI多模态诊断能力重大突破。
就在2025年11月20日,来自印度阿育王大学Koita数字健康中心CRASH实验室,这项标题为《Gemini 3.0 Pro在RadLE v1放射学复杂病例测试中首次超越放射科规培医生》的研究,正式宣告了通用人工智能在医学影像诊断领域迈出了历史性的一步,虽然距离真正的专家级放射科医师还有明显差距,但这次的突破标志着AI从“辅助工具”向“准临床决策者”悄然过渡的开端。
RadLE v1:专为“难啃骨头”设计的放射学终极考场
这项研究使用的测试基准叫作RadLE v1(Radiology’s Last Exam,直译为“放射学的最后一道考题”),这不是普通测试,而是精心构建的一套包含50例高难度、多系统交叉的复杂放射学病例数据集,涵盖CT、MRI和X光片,专门用来模拟放射科医生在真实临床中遭遇的棘手场景,比如那些边界模糊、症状重叠、容易误诊的病例。
研究团队强调:RadLE v1并不是为了“秀AI多聪明”,而是为了暴露AI在高阶诊断推理上的真实短板,过去几个月里,包括GPT-5、Gemini 2.5 Pro、Claude Opus 4.1在内的所有主流大模型,在RadLE v1上的表现统统被放射科规培医生碾压,准确率普遍在30%上下,而规培医生群体平均能答对45%,专家级放射科医生则高达83%,这说明AI距离“靠谱”还有很长的路要走。
Gemini 3.0 Pro 突破临界点:51% vs 45%,首次超越规培医生
然而,就在谷歌悄然上线Gemini 3.0 Pro预览版后,CRASH实验室立刻用完全相同的测试设置——同样的50个病例、同样的提示词、同样的评分标准——再次进行了评估,结果令整个团队震惊:Gemini 3.0 Pro在网页端测试中准确率达到51%,首次超过放射科规培医生的45%。
更令人振奋的是,当通过API调用“高思考模式”并重复三次取平均值后,准确率竟飙升至57%(28.5/50),这不仅是一次数量级的提升,更是一次质的飞跃,这意味着通用大模型首次在复杂医学影像诊断任务中,展现出接近初级执业医师的判断力,虽然距离专家级83%仍有30个百分点的鸿沟,但这个“从规培生以下到规培生以上”的跨越,是AI医疗史上的一个里程碑事件。
从“胡猜乱判”到“结构化推理”:AI诊断逻辑的进化实证
研究团队特意挑选了一个典型病例——急性阑尾炎——来展示Gemini 3.0 Pro与前代模型(如GPT-5)的根本差异,在这个病例中,GPT-5的表现堪称灾难:它连阑尾的位置都搞不清,一会儿说是回结肠套叠,一会儿又怀疑克罗恩病,最后硬生生选了个“小肠套叠”的错误答案,整个推理过程混乱、跳跃、缺乏解剖学基础。
而Gemini 3.0 Pro则像一位受过严格训练的住院医师:它精准定位“右下腹、腰大肌前方、盲肠附近”的阑尾位置,清晰描述“阑尾扩张、壁强化、周围脂肪条索、管腔积液”等关键影像特征,系统排除了黏液囊肿、克罗恩病、肠脂垂炎、憩室炎和输尿管结石等所有鉴别诊断,最终以高度自信给出“急性阑尾炎”的结论,这种从“发散式胡猜”到“聚焦式推理”的转变,正是AI迈向临床实用的核心标志。
三次API复现实验:57%准确率,性能稳定可靠
为了排除偶然性,研究团队没有止步于一次网页端测试,而是通过Google AI Studio的API接口,开启了“高思考模式”,对同一50例数据集进行了三次独立运行,结果分别为29.5分、26分和30分,平均28.5分(57%)。
这一数据不仅高于网页端的51%,更关键的是三次结果高度一致,波动极小,说明Gemini 3.0 Pro的提升不是“抽风式顿悟”,而是模型架构和多模态推理能力的真实进化,这种可重复性是科研可信度的基石,也为未来临床部署提供了初步信心,尽管目前仍远未达到“可独立诊断”的标准,但至少证明了AI在复杂影像解读中的稳定性正在建立。
距离专家仍有30%鸿沟,AI尚不能替代医生
研究团队非常清醒地指出:尽管Gemini 3.0 Pro取得了历史性突破,但它57%的最高准确率与专家放射科医生83%的水平相比,仍有巨大差距,这意味着在真实临床环境中,AI仍会犯下大量错误,尤其是在那些需要整合病史、实验室数据、动态影像序列甚至患者细微表情的超复杂场景中,AI的“单模态局限性”依然明显,CRASH实验室强调,当前阶段的AI定位应是“第二意见提供者”或“筛查加速器”,而非“诊断决策者”,任何跳过人类医生直接使用AI输出做临床决定的行为都是危险且不负责任的,尤其是在涉及手术、放化疗等重大干预时。
AI不会取代医生,但会取代不用AI的医生
这次Gemini 3.0 Pro的突破再次印证了一个趋势:AI在特定高阶认知任务上的进步速度远超预期,放射科作为AI渗透最深的医学领域之一,正站在变革的风口,未来十年,放射科医生的核心竞争力将不再是“看片速度”,而是“如何与AI协同决策”“如何解释AI输出”“如何处理AI的盲区”,那些主动拥抱AI、将其作为思维延伸工具的医生,将获得前所未有的诊断效率和准确性,而拒绝变革者则可能在效率与质量的双重压力下被淘汰,正如研究团队所言:“我们不是在制造替代品,而是在打造增强工具。”