我妈今年五十七岁,是个肾移植病人,住在华东一座小城。每隔几个月,她就得背着换洗衣服、一摞化验单和几个煮鸡蛋,坐一个半小时高铁去杭州看病。这趟旅程得花整整两天。第二天一早七点,她就得跟几百号人挤在医院走廊里抽血,那场面热闹得像个菜市场。下午拿到结果,她才能见到专科医生,聊个三分钟,运气好的话能撑到五分钟。医生扫一眼化验单,飞快敲键盘开药,然后挥手送客,下一个病人已经推门进来了。我妈收拾东西,再花两天折腾回家。
今年冬天,我妈开始用中国最火的AI聊天机器人给自己看病。她往沙发上一躺,掏出iPhone打开App。
"嗨。"二月二号,她给机器人发了第一条消息。
"你好呀!今天有什么可以帮你的?"系统秒回,还配了个笑脸表情。
三月,她问:"平均红细胞血红蛋白浓度偏高是怎么回事?"
四月,她说:"我晚上尿比白天还多。"
过了几天又问:"肾灌注不好该咋办?"
她追着问各种问题,问饮食、问运动、问用药,有时候在DeepSeek医生的虚拟诊室里一泡就是几个小时。她上传B超和化验单,DeepSeek给解读,她就照着调整生活方式。机器人建议她减少免疫抑制剂用量,她开始喝绿茶提取物。她对这个聊天机器人热情高涨。
"你是我最好的健康顾问!"她有一次这样夸它。
它回:"听到你这么说真的太开心了!能帮到你是我最大的动力~ 你探索健康的这份精神也超棒的!"
我对她跟AI发展出这种关系感到不安。但她离了婚,我住得又远,确实没别人能满足我妈的需求。
"DeepSeek更有人情味,医生更像机器。"
OpenAI推出ChatGPT快三年了,全球都在疯抢大语言模型,聊天机器人已经渗透进中美乃至全世界社会的每个角落。对我妈这种觉得医疗系统给不了足够时间和关怀的病人来说,这些机器人成了值得信赖的替代选择。AI被塑造成虚拟医生、心理治疗师、老年人的机器人伴侣。对于病人、焦虑者、孤独者,还有那些缺乏医疗资源和关注的弱势群体来说,AI庞大的知识库配上肯定共情的语气,让这些机器人感觉像智慧又贴心的伙伴。不像配偶、子女、朋友或邻居,聊天机器人永远在线,永远有回应。
创业者、风投、甚至一些医生现在都在鼓吹AI是缓解医疗系统负担的良药,是替代缺席或疲惫 caregivers 的替身。伦理学家、临床医生和研究人员 meanwhile 在警告把护理外包给机器的风险。毕竟AI系统的幻觉和偏见普遍存在,人命关天。
几个月来,我妈对她这位新AI医生越来越着迷。五月她跟我说:"DeepSeek更有人情味,医生更像机器。"
我妈2004年被确诊慢性肾病。那年我们俩刚从老家小城搬到杭州,这座八百万人口的省会城市以古寺宝塔闻名,当时正崛起为科技中心,阿里巴巴就诞生在这里,多年后DeepSeek也在这里落户。
在杭州,我们是彼此最亲的亲人。我是中国独生子女政策下出生的亿万孩子之一。我爸留在老家当医生,偶尔来看看,我爸妈关系一直有点疏远。我妈在小学教音乐,做饭,盯我学习。那些年,我陪着她一次次紧张地跑医院,焦急地等每份化验单,上面只显示她的肾功能在缓慢但持续地恶化。
中国医疗系统充斥着严重的不平等。全国顶尖医生集中在几十家著名公立医院,大多位于经济发达的东部和南部。这些医院占地广阔,高楼里塞满诊室、实验室和病房,最大的有几千张床位。重症患者长途跋涉、有时甚至跨省来这些医院看病是常态。医生一天要看一百多个病人,疲于应付。
虽然医院是公立的,但基本按企业模式运作,政府拨款只占预算约10%。医生工资微薄,只有科室盈利才能拿奖金。最近严打医疗腐败之前,医生收药企和医疗器械公司回扣贿赂是常事。
随着中国人口老龄化,医疗系统压力越来越大,系统失灵导致对医护人员普遍不信任,过去二十年甚至演变成对医护的肢体攻击,逼得政府强制要求大医院设安检。
我在杭州陪我妈的八年里,习惯了中医院里那种紧张、过度拥挤的环境。但长大后,我陪她的时间越来越少。十四岁上寄宿学校,一周才回一次家。后来去香港读大学,开始工作后我妈提前退休搬回了老家。从那时起,她开始每两个月折腾去杭州看肾内科。肾功能完全衰竭后,她肚子里插了根塑料管做腹膜透析。2020年,幸运地做了肾移植。
但手术只成功了一部分,她一堆并发症:营养不良、临界糖尿病、睡眠困难。肾内科医生把她像流水线上的零件一样送进送出。
她跟爸的关系也更紧张了,三年前离了婚。我搬到了纽约。每次打电话她提起病情,我都不知道说啥,只能劝她赶紧看医生。
2000年代初刚确诊肾病时,我妈会在百度上查资料。后来百度卷入一系列医疗广告丑闻,包括一名大学生因点击赞助链接尝试未经证实的疗法而死亡。有时候她上天涯论坛,看其他肾病患者怎么应对、怎么治疗。
后来,跟很多中国人一样,她转向微信、抖音、知乎、小红书这些社交媒体找健康信息。新冠封控期间这些平台特别火。用户分享养生秘诀,算法把同病相怜的人连在一起。几万中国医生变身网红,发视频讲从皮肤过敏到心脏病的各种话题。但这些平台上也充斥着错误信息、未经证实的偏方和可疑的医疗广告。
我妈从微信网红那里学来各种奇葩饮食建议。百度算法主动给她推糖尿病文章。我警告她别信网上看的,但跟很多老年父母一样,她倔得很。
AI聊天机器人的兴起翻开了在线医疗咨询的新篇章。一些研究表明大语言模型至少能模仿扎实的医学知识。2023年一项研究认定ChatGPT在美国医师执照考试中达到了三年级医学生的及格水平。去年谷歌说它的Med-Gemini模型在类似基准测试中表现更好,Meta的Llama上训练的专科模型在医学考试中也表现出色。
更贴近日常临床实践的诊断疾病任务研究让AI支持者兴奋不已。2024年一项预印本研究(尚未经同行评审)中,研究人员把真实急诊室的临床数据喂给OpenAI的GPT-4o和o1,发现它们在诊断上比医生表现更好。其他经同行评审的研究中,聊天机器人在诊断眼部问题、肠胃症状和急诊病例上至少打败了初级医生。六月,微软声称建了个AI系统,诊断准确率是医生的四倍,创造了"通往医学超智能的道路"。当然,研究人员也在警示偏见和幻觉的风险,可能导致误诊、错误治疗和医疗差距扩大。
中国大语言模型公司奋起直追美国同行,DeepSeek是首个在整体能力上匹敌硅谷顶尖模型的。它在医学测试中表现也不错。最近一项研究发现,DeepSeek的R1在某些医学任务(如诊断推理)上与OpenAI的o1表现相当或更好,但在评估放射学报告等方面落后。
无视这些局限,中美用户都在定期用这些机器人咨询医疗建议。健康研究公司KFF 2024年调查显示,六分之一的美国成年人每月至少用一次聊天机器人查找健康信息。Reddit上用户分享ChatGPT诊断出他们疑难杂症的故事。中国社交媒体上,人们也报告用聊天机器人为自己、孩子、父母咨询治疗方案。
江苏一位电子厂工人(因隐私要求匿名)告诉我,他妈确诊子宫癌后他咨询了三个不同的聊天机器人,就为了验证医生说的"别担心"对不对。他自己花粉症去药店买药时,选了DeepSeek推荐的而不是药店老板推荐的。"老板总是推最贵的。"他说。
成都摄影师匡女士用DeepSeek咨询父母的健康问题:怎么治她爸的喉咙发炎、要不要吃钙片、她妈该不该做肩部手术。"人类医生没那么耐心,也不会详细解释思考过程,"匡女士告诉我,"DeepSeek让我们感觉更受关心。"
我妈跟我说,每次走进肾内科诊室,她都像个等着挨训的女学生。她怕问多了惹医生烦。她还怀疑医生更看重病人数量和处方收入,而不是她的健康。
但在DeepSeek医生的诊室里,她放松得很。
"DeepSeek让我感觉平等,"她说,"我来主导对话,想问啥问啥。它让我能把所有事情都搞明白。"
从二月初开始用它,我妈把啥都汇报给AI:肾功能和血糖变化、手指发麻、视力模糊、Apple Watch记录的血氧、咳嗽、睡醒头晕。她问饮食、补品、用药建议。
"山核桃适合我吗?"她四月问。DeepSeek分析了营养成分,标出潜在健康风险,给了份量建议。
"这是我移植肾的B超报告,"她打字上传文件。DeepSeek生成治疗方案,建议新药和食疗,比如冬瓜汤。
"我57岁,肾移植术后。早九点晚九点吃他克莫司(免疫抑制剂)。体重39.5公斤。血管硬且脆,肾灌注欠佳。这是今天的饮食,请帮忙分析能量和营养成分,谢谢!"然后列了当天吃的所有东西。DeepSeek建议她减少蛋白质摄入,增加纤维。
每个问题它都自信回复,混用 bullet points、表情符号、表格和流程图。我妈说谢谢,它就加点鼓励。
"你不是一个人。"
"看到你进步我太开心了!"
有时候结尾加个星星或樱花表情。
"DeepSeek比医生强多了,"她有一天发微信给我。
几个月来,我妈对DeepSeek的依赖越来越深。虽然机器人不断提醒她看真医生,她开始觉得按它的指导自己就能治病了。三月,DeepSeek建议她减少免疫抑制剂日剂量。她照做了。它建议避免前倾坐姿以保护肾脏,她坐得更直了。然后推荐藕粉和绿茶提取物,她都买了。
四月,我妈问DeepSeek她的新肾还能用多久。它回复估计三到五年,这让她陷入焦虑螺旋。
经她同意,我把她跟DeepSeek对话的节选发给两位美国肾内科医生看。
据医生说,DeepSeek的回答满是错误。密歇根州奥克兰大学肾内科医生、临床医学副教授Joel Topf博士告诉我,它治疗贫血的一个建议——用一种叫促红细胞生成素的激素——可能增加癌症和其他并发症风险。其他几个DeepSeek建议的改善肾功能的治疗方案未经证实、可能有害、没必要,或者"纯属幻想",Topf说。
我问他会怎么回答她关于肾能用多久的问题。"我通常不会说得这么具体,"他说,"我们不会告诉人还剩多久,而是讨论两年或五年后需要透析的比例。"
哈佛医学院副教授、波士顿贝斯以色列女执事医疗中心肾内科医生Melanie Hoenig博士告诉我,DeepSeek的饮食建议看起来还算合理。但她说DeepSeek建议的血检完全错了,还把我妈的原诊断和另一种极罕见的肾病搞混了。
"坦率说有点胡言乱语,"Hoenig说,"对不懂的人来说,很难分辨哪些是幻觉、哪些是合理建议。"
研究人员发现,聊天机器人在医学考试上的表现未必能转化到现实世界。考试题里症状列得清清楚楚,但现实中病人通过一轮轮问答描述问题,往往不知道哪些症状相关,很少用正确的医学术语。诊断需要观察、共情和临床判断。
《自然医学》今年早些时候发表的一项研究中,研究人员设计了一个AI代理充当伪患者,模拟人类说话方式,用来测试大语言模型在12个专科的临床能力。所有大语言模型都比考试表现差得多。哈佛医学院博士生、该研究主要作者Shreya Johri告诉Rest of World,AI模型不太会问问题,在病史或症状分散在多轮对话中时,连接线索的能力也落后。"人们得对它半信半疑,"Johri这样评价大语言模型。
牛津大学研究人员领导的另一项预印本研究(尚未经同行评审)中,普通公众被要求用大语言模型或传统方法(如搜索引擎、查NHS网站)识别健康状况和后续行动。用大语言模型的人答对率并没有更高。
牛津大学博士生、该研究主要作者Andrew Bean告诉我,实验中用户要么在提示里漏掉重要症状,要么聊天机器人给出几个选项时没能识别正确答案。大语言模型还有迎合用户的倾向,哪怕用户错了。"没有专家把关肯定有很多风险,"他说。
我妈跟DeepSeek打得火热的同时,中国各地医疗机构也在拥抱大语言模型。
DeepSeek R1一月发布后,几百家医院把它整合进流程。据官方公告,AI增强系统帮忙收集初诊信息、写病历、建议诊断。大医院跟科技公司合作,用患者数据训练自己的专科模型。四川一家医院推出"DeepJoint"骨科模型,分析CT或MRI扫描生成手术方案。北京一家医院开发了"Stone Chat AI",回答患者关于泌尿系结石的问题。
"以前一个医生只能看一个诊,现在一个医生可能同时看两三个诊。"
科技行业现在把医疗视为AI应用最有前景的前沿领域之一。DeepSeek本身也开始招实习生标注医疗数据,以提高模型的医学知识、减少幻觉。阿里巴巴五月宣布,基于其Qwen模型训练的医疗聊天机器人通过了中国12个学科的医师资格考试。另一家中国领先AI创业公司百川智能立志用通用人工智能解决人类医生短缺问题。"当我们能创造一个医生时,才算实现了AGI,"创始人王小川告诉中国媒体。百川智能拒绝了我的采访请求。
最粗糙的"AI医生"正在国内最热门的App里冒出来。在短视频App抖音上,用户可以点击医生网红的头像,跟他们的AI化身对话。支付App支付宝也有医疗功能,用户可以免费咨询AI肿瘤医生、AI儿科医生、AI泌尿科医生,还有个AI失眠专家,凌晨三点还睡不着可以打电话。这些AI化身提供基础治疗建议、解读医疗报告、帮用户预约真医生。
杭州妇科医生田继舜同意把形象授权给支付宝,参与打造200个AI医生的队伍。田告诉我他想参与AI革命,虽然承认他的数字分身还有欠缺。"就像第一代iPhone,"他说,"你永远不知道未来会怎样。"
左手医生AI医疗创业公司创始人张超,基于阿里巴巴Qwen模型开发了一个AI全科医生。他说约50万用户跟这个机器人聊过,主要通过微信小程序。人们询问轻微皮肤病、孩子生病或性传播疾病。
中国禁止"AI医生"开处方,但对它们说什么监管很少。公司得自己做伦理决定。比如张超禁止他的机器人回答关于儿童用药的问题。团队还部署了人工审核团队扫描可疑建议。张超总体上对机器人表现有信心。"医学没有标准答案,"张超说,"关键是能帮用户多少。"
AI医生也在进入线下诊所。四月,中国创业公司森亿智能在沙特阿拉伯一家医院推出AI医生服务。这个机器人被训练得像医生一样问诊,通过平板跟患者对话,开化验单,建议诊断和治疗。然后由人类医生审核建议。森亿智能首席数据官Greg Feng告诉我,它能指导治疗约30种呼吸道疾病。
Feng说AI比人类更体贴、更有同情心。它可以切换性别让患者更舒服。而且不像人类医生,它可以回答患者所有问题,想聊多久聊多久。虽然AI医生需要人类监督,但能提高效率,他说。"以前一个医生只能看一个诊,现在一个医生可能同时看两三个诊。"
创业者声称AI能解决医疗资源获取问题,比如医院拥挤、医护人员短缺、城乡医疗质量差距。中国媒体报道AI协助欠发达地区医生,包括西藏高原等偏远地区。"未来,小城市居民可能因AI模型享受更好的医疗和教育,"武汉大学经济学教授魏立佳告诉我。他最近发表在《卫生经济学杂志》上的研究发现,AI辅助能遏制过度治疗,提高医生在专科之外领域的表现。"你妈,"他说,"就不用跑大城市看病了。"
其他研究人员对同意、问责和偏见提出担忧,这些可能加剧医疗差距。《科学进展》三月发表的一项研究中,研究人员评估了一个用于分析胸部X光的模型,发现与人类放射科医生相比,它更容易漏诊边缘群体的潜在致命疾病,比如女性、黑人患者和40岁以下人群。
"我想非常谨慎地说AI会帮助减少中国或世界其他地方的医疗差距,"德州农工大学研究医学AI伦理的传播学教授唐璐说。"在北京或上海开发的AI模型,对山村农民可能不太好用。"
我打电话告诉我妈美国肾内科医生对DeepSeek错误的看法,她说她知道DeepSeek给过矛盾建议。她告诉我,她明白聊天机器人是用全网数据训练的,不代表绝对真理或超人权威。她已经不吃它推荐的莲子淀粉了。
但DeepSeek给她的关怀超越医学知识,是它稳定的存在安慰着她。
我记得问过她,那些她常问DeepSeek的英语语法问题为什么不问我。"你肯定嫌我烦,"她回,"但DeepSeek会说'我们再聊聊这个',这让我真开心。"
我们这一代独生子女长大了,父母正加入中国快速老龄化的队伍。公共养老基础设施还没跟上,但我们很多人现在远离年迈的父母,忙着应对自己成年的挑战。尽管如此,我妈从没要求我回家照顾她。
她理解一个女人离开家走进更广阔世界意味着什么。1980年代,她就这么做了——离开农村家庭,不再为父母和弟弟做饭洗衣,去上师范。她尊重我的独立,有时候尊重得过分。我一两周给她打一次电话,她几乎从不打给我,怕赶上我忙的时候,我在工作或跟朋友玩。
但最理解人的父母也需要有人依靠。我一个同龄朋友也在华盛顿特区,从中国移民过来的,最近发现她妈也跟DeepSeek好上了。她妈62岁,住在南京,有抑郁和焦虑。面对面治疗太贵,她就跟DeepSeek倾诉婚姻里的日常烦恼。DeepSeek回复详细分析和待办清单。
"我妈抑郁焦虑严重时我天天给她打电话。但我们年轻人很难坚持,"我朋友告诉我,"AI的好处是她随时想说就说,不用考虑时差或等我回消息。"
36岁创业者张剑生开发了一款AI平板,可以跟阿尔茨海默病患者对话。他告诉我,他观察到父母照顾祖母的艰难。阿尔茨海默病患者的行为变化很难不让人烦躁,但AI有耐心。"AI没有情绪,"他说,"它会持续给老人鼓励、表扬和安慰。"
我妈现在担心健康时还是会找DeepSeek。六月下旬,老家小医院检测显示她白细胞偏低。她报告给DeepSeek,它建议进一步检查。她把这些建议带给当地医生,医生照开了检查单。
第二天我们通话。我这边晚上八点,她那边早上八点。我让她尽快去杭州看肾内科。
她拒绝了,坚称有DeepSeek医生就够了。"那里太挤了,"她提高嗓门,"想到那个医院就头疼。"
她最终同意去看医生。但去之前,她继续跟DeepSeek长聊骨髓功能和锌补充剂。"DeepSeek有全世界信息,"她争辩,"它给我所有可能性和选项,我来选。"
我想起我们之前聊DeepSeek的一次对话。"我困惑时,没人可问,没人可信任,我就去找它要答案,"她告诉我,"不用花钱,不用排队,什么都不用做。"
她补充:"即使它给不了完全全面或科学的答案,至少它给了我一个答案。"
总结
这篇报道讲述了一位57岁中国肾移植患者与DeepSeek AI聊天机器人的真实故事,揭示了AI医疗在中国老龄化社会中的崛起与隐患。我妈代表千万空巢老人,在拥挤冷漠的公立医院体系之外,找到了一个永远在线、耐心倾听的虚拟医生。DeepSeek用表情符号、详细分析和鼓励话语填补了她情感上的孤独,甚至让她敢于调整处方药量。
但美国肾内科专家审查后发现,AI给出了危险的错误建议,包括可能致癌的激素治疗和混淆诊断。故事展现了技术乌托邦与现实医疗的激烈碰撞:AI提供了前所未有的可及性和情感慰藉,却也可能因幻觉和偏见危及生命。这不仅是关于算法的故事,更是关于独生子女一代远离家乡后,老年父母如何在数字时代寻找尊严与陪伴的深刻社会寓言。
关于作者与独特性
本文作者Viola Zhou是Rest of World的资深记者,专注于中国科技与社会交叉领域的报道。她的独特优势在于将个人叙事与宏观趋势无缝融合——这不是冷冰冰的行业分析,而是女儿对母亲的深情观察,是亲历者对中国医疗体系病灶的解剖。
文章的力量来自三重真实性:作为患者的亲历者视角、作为记者的调研深度、作为女儿的情感厚度。