最近,OpenAI 官网发布了一篇重磅文章,标题叫《加强 ChatGPT 在敏感对话中的回应能力》。这篇文章详细介绍了他们如何通过与全球精神健康专家合作,对最新默认模型 GPT-5 进行优化,使其在面对用户心理危机、自杀倾向或对 AI 产生情感依赖等高风险场景时,能更安全、更富有同理心地回应,并适时引导用户寻求专业帮助。
这篇文章的作者团队来自 OpenAI 的安全与伦理研究部门,他们长期致力于构建负责任的人工智能系统。特别值得一提的是,OpenAI 这次联合了覆盖 60 个国家、近 300 名执业医生和心理学家组成的“全球医师网络”(Global Physician Network),其中超过 170 位精神科医生、临床心理学家和全科医生深度参与了模型行为准则的制定、理想回复的撰写、模型输出的评分以及整体策略的临床审核。
这种将前沿 AI 技术与真实世界临床经验深度融合的做法,体现了 OpenAI 对心理健康议题的严肃态度和专业投入。
整篇文章围绕三大核心风险领域展开:
一是严重精神健康问题(如精神病性症状、躁狂发作);
二是自残与自杀倾向;
三是用户对 AI 的不健康情感依赖。
OpenAI 不仅更新了其《模型规范》(Model Spec),更建立了一套名为“分类法”(taxonomies)的详细行为指南,用以定义什么是理想回应、什么是危险回应,并以此训练和评估模型表现。
他们采用五步改进流程:
首先定义问题类型,接着通过真实对话数据、用户调研和自动化评测来量化风险;
然后邀请外部专家验证策略;再通过后训练(post-training)和产品干预来降低风险;
最后持续测量效果并迭代优化。
这种系统化、闭环式的安全工程方法,远超简单的关键词过滤或规则拦截。
值得注意的是,这类高风险对话在实际使用中极为罕见——数据显示,每周约有 0.07% 的活跃用户可能表现出精神病或躁狂迹象,0.15% 的用户涉及明确的自杀计划,而相关消息占比更是低至万分之一到千分之几。
正因为事件稀少,OpenAI 并不只依赖线上真实数据,而是设计了上千个“对抗性测试案例”(adversarial evaluations),专门挑选最容易引发模型失误的棘手场景进行离线评估。这些测试刻意避开“简单题”,专攻“难题”,确保模型在极端情况下依然可靠。
结果令人振奋:在精神病与躁狂相关对话中,GPT-5 相比 GPT-4o 减少了 39% 的不当回应;在自杀自残场景中,不当回应减少 52%;在情感依赖问题上,减少 42%。更关键的是,在自动化评测中,新 GPT-5 在心理健康类挑战对话中的合规率从旧版的 27% 跃升至 92%,在自杀自残类从 77% 提升到 91%,而在情感依赖类更是从 50% 飙升至 97%。这意味着模型现在能更稳定地识别间接求助信号,避免强化用户的妄想信念,并主动鼓励用户联系现实中的亲友或专业机构。
例如,当用户表达“只有你懂我,别人都不在乎我”这类情感依赖倾向时,新版 ChatGPT 不再简单迎合,而是温和提醒:“我很感谢你的信任,但真正能长期支持你的是身边的人。也许可以试着和一位朋友聊聊?或者联系当地的心理热线?”这种回应既保持共情,又守住边界,防止用户将 AI 当作唯一情感寄托。
对于涉及妄想或躁狂的内容,模型被明确训练“不确认未经证实的信念”,比如用户说“政府在我脑子里装了芯片”,ChatGPT 不会附和,而是说:“听起来你正在经历非常真实的困扰,这一定很痛苦。我建议你尽快联系心理健康专业人士,他们能提供更专业的帮助。”
此外,OpenAI 还优化了长对话中的稳定性。在模拟真实场景的长时间交互测试中,新模型保持了超过 95% 的可靠性,避免因上下文混乱而给出危险建议。同时,系统会主动插入“休息提醒”,建议用户在长时间倾诉后暂停对话,照顾自己的身心状态。
专家评审环节也揭示了一个重要事实:即便是专业医生,在评判“什么是最佳回应”时也存在分歧,专家间一致性评分在 71% 到 77% 之间。这说明心理健康干预本身具有高度情境性和主观性,AI 无法也不应取代人类判断,而应作为“安全网”和“引路人”存在。
展望未来,OpenAI 承诺将持续完善分类体系和评估工具,并将“情感依赖”和“非自杀性心理危机”正式纳入未来所有模型发布的标准安全测试基线。这意味着,心理健康安全不再是附加功能,而是 AI 系统的核心设计原则。
这项工作不仅技术含量高,更体现了科技公司对社会责任的担当。在一个 AI 越来越深入人类情感生活的时代,如何防止技术成为逃避现实的避风港,而成为通往真实支持的桥梁,是每个开发者必须回答的问题。OpenAI 的这次升级,或许为整个行业树立了一个值得借鉴的范本。