极客观点:GPT-5凭医疗+编程双杀技能再度领先


GPT-5 刚刚闪亮登场:这次主攻“看病”和“写代码”,顺便治治人类的焦虑

据 OpenAI 官方吹——啊不是,官宣,GPT-5 现在集齐了三种形态:一个跑得比外卖小哥还快的“速食模型”,一个深度沉思、眉头紧锁的“哲学模式”,外加一个智能路由器,自动判断你该用哪个。当然,如果你非得让它“深度思考人生”,也可以强行指定——毕竟人类嘛,总喜欢在不需要的时候也要装深沉。

跟上一代 GPT-4(也就是大家口中的 o3)相比,GPT-5 的进步有点像从“能用”升级到“好像真能用”:某些领域飞跃式进步,某些方面嘛……嗯,也就比前任多背了两首诗。

我和其他凡人一样,刚拿到权限还没捂热,就已经眼睁睁看着它自己决定“现在我要进入沉思模式了”——仿佛它真有灵魂,还带点中年危机那种。

不过下面这些信息,大多来自我熬夜翻新文档时的快速扫读,所以如果你发现我说错了什么,别急着举报,先帮我找找退烧药。



1. 准确性:终于学会“不会就装死”,而不是瞎编!  
OpenAI 宣称,在“深度思考模式”下,GPT-5 的事实错误比 o3 降低了约 80%,幻觉(hallucinations)也大幅减少——终于不再张口就是“据史料记载,恐龙发明了微信”。更感人的是,它现在被训练得知道什么时候该认怂,比如直接说:“这题超纲了,我不会。” 而不是硬着头皮胡扯,假装自己是上帝兼职AI。  

如果这属实,光凭这一点,GPT-5 就值回票价——毕竟,我们受够了那些“自信但错误”的AI,就像某些专家开直播治癌症。



2. 编程能力:小胜 Claude 一筹,但还没敢碰 Rust 的雷区  
在 SWE-bench Verified 这个程序员专属考试中,GPT-5 以“极其微弱的优势”险胜 Claude Opus 4.1。别小看这0.1分,够硅谷工程师多喝半杯燕麦拿铁了。

关键区别在于:GPT-5 采用“模块化系统”,能根据任务动态调节“速度 vs 深度”——写个Python脚本?快!重构整个后端?深思!而 Claude 则坚持“一招鲜吃遍天”,所有问题都塞进同一个大模型里慢慢炖,追求一致性。

另外,GPT-5 理论上还支持:  

  • - 长上下文处理(API 支持高达 40万 tokens,相当于一本《三体》全集)  
  • - 前端审美提升(终于不会再生成“蓝底红字闪烁GIF”风格的网页了)  
  • - 并行调用工具(更适合当“AI代理”自己干活)  

至于编译型语言?OpenAI 闭口不谈。我准备亲自拿 Rust 试试——毕竟,能不把 ownership 搞成“爱情归属权”的AI,才算真正成年。



3. 最骚的操作:押注医疗健康,想当你的“AI家庭医生”  
GPT-5 在 HealthBench Hard 上拿下 46.2% 的得分,创下新高。它不再只是回答“头疼怎么办”,而是开始扮演“主动式健康伙伴”:  
  • - 主动提醒风险:“你这症状像不像脑瘤?建议别刷手机了,去看医生。”  
  • - 根据你的地理位置推荐医院(而不是建议你去火星找华佗)  
  • - 根据你的医学知识水平调整话术(对小白说“多喝水”,对医生说“考虑颅内压升高”)  

这背后显然不是巧合:美国医疗系统贵得离谱、烂得感人,几百万人看病靠谷歌搜索+自我诊断。而“健康咨询”一直是 ChatGPT 的 top 使用场景之一。OpenAI 这是想一边拯救苍生,一边顺手抢走保险公司和WebMD的饭碗?

问题是:AI 能不能真的缓解美国医疗灾难?还是说最后变成“你问它要不要做手术,它推荐你买份医疗保险”?



4. 一个令人不安的小细节:旧模型,没了!  
我刚拿到 GPT-5,转头就发现 GPT-4、GPT-4o 全被下架了。连个“对比体验区”都不给,仿佛 OpenAI 在说:“别怀念过去,现在你只能爱我。”  

我只想安静地做个对照实验,结果连对照组都被删了——这操作,比某些分手后立刻拉黑前任的渣男还狠。



5. 同行对比?OpenAI 选择性失明  
发布文档和视频里,OpenAI 对其他家模型一概不提,仿佛宇宙只存在它一家AI公司。  

但现实是:  

  • - Claude Opus 4.1 和 GPT-5 基本五五开,胜负在毫厘之间  
  • - Gemini 2.5 Pro 在纯编码上明显掉队(谷歌:我们专注讲冷笑话)  
  • - Grok 声称接近 Claude 水平(但我试了,感觉它更像马斯克的嘴替)  
  • - 国产新秀如 Kimi K2、Qwen3-Coder、DeepSeek R1 虽仍落后,但正以“卷死同行”的速度狂追  

OpenAI 这次对模型大小、训练数据量也三缄其口——可能是商业机密,也可能是因为“我们没增大参数,但算法变聪明了”,怕被人追问“那之前是不是一直在划水?”



总结:  
GPT5是一次重要升级,但还没到“天降神兵”的地步。它更像一个终于学会说“我不会”的优等生,开始在医疗、编程等关键领域发力。  

希望它别像 GPT-4.5 或 Llama 4 那样,被寄予厚望后却交出一份“老师看了都摇头”的答卷。