GPT-5融合了一个快速的模型,一个深度的“思考模式”,以及一个根据你的提示决定使用哪个的路由器,尽管你仍然可以在需要的时候强制进行深度推理。
GPT-5现在微软是一个新的人工智能系统,它建立在o 1和o3模型的推理基础上,并将以前的每个模型线统一到一个自适应架构中。
开发人员现在可以在Cursor、GitHub Copilot,Visual Studio Code中免费使用GPT-5。
GPT-5的“双模人生”
GPT5拥有“节能模式”和“拼命模式”之间的自由切换。
官方说法是:它有个“智能路由系统”,能根据问题的复杂程度,自动决定是“随便应付一下”还是“认真思考三分钟”。
这不就是我们打工人的真实写照吗?老板问“今天报表做完没”,你说“快了快了”——那是gpt-5-main模式,轻量、快速、敷衍了事;可老板突然甩来一个“请用量子力学解释公司KPI增长趋势”,你立马切换到“深度思考”状态,咖啡续命,眉头紧锁——恭喜,你已进入gpt-5-thinking模式。
而更离谱的是,用户居然还能手动触发“认真模式”,比如输入一句:“请你仔细思考这个问题。”
我的天,这不就跟对实习生说“这次要认真点啊”一样吗?结果实习生点点头,转头继续复制粘贴。但GPT-5不一样,它真的会“花更多时间思考”——至少系统会假装它在思考。
OpenAI说,Pro用户还能用GPT-5 Pro,那玩意儿思考得更久,更深入,据说在67.8%的难题中,评委都觉得它比“普通思考版”更靠谱。可问题是,我们怎么知道它不是在后台多转了几圈循环,假装自己在冥想?
GPT-5的“成绩单”比谁都好看
接下来就是重头戏——吹牛环节。
OpenAI开始甩出一连串令人眼花缭乱的“考试成绩”:
编程?
GPT-5在SWE-bench Verified上拿了74.9%,比o3提升了两个台阶,错误率直接砍掉三分之二。写代码?它不仅能写,还能debug大型项目,简直是程序员梦中的“完美同事”——从不抱怨加班,不会写bug(理论上),也不会偷偷在GitHub上骂产品经理。
医疗领域?
它现在能当你的“主动思维伙伴”,问你“你最近是不是睡不好?压力大吗?要不要考虑补充维生素D?”——听着像不像你那个总想当心理医生的闺蜜?在HealthBench Hard测试中,它从o3的31.6%一路飙升到46.2%。虽然还不到及格线,但别忘了,它可是AI,不是医生。
OpenAI也赶紧补了一句:“别拿它当医生用。”——这句话说得比任何免责声明都真诚,仿佛在说:“我们造了个能看病的AI,但它要是把你治死了,可别怪我们。”
数学?
94.6%的AIME 2025成绩,纯推理无工具,听起来像是奥数冠军附体。多模态理解?MMMU测试84.2%,科学难题?GPQA上GPT-5 Pro干到了88.4%。这些数字堆在一起,简直像是AI界的“学霸人设”已经焊死在墙上,就差没拿个诺贝尔奖来证明自己比爱因斯坦还聪明了。
AI终于学会“说真话”了?
不,它只是学会了“更体面地撒谎”
最“感人”的进步,是OpenAI声称GPT-5“幻觉”大幅减少。
什么叫“幻觉”?就是AI一本正经胡说八道,比如告诉你“猫是一种会飞的哺乳动物,原产于火星”。以前GPT-4o可能张口就来,现在GPT-5据说在联网状态下,事实错误率降低了45%,纯思考模式下更是比o3少了80%。在LongFact和FActScore这些测试里,它的幻觉次数是o3的六分之一——听起来很厉害,对吧?
但别高兴太早。
AI的“诚实”从来不是道德选择,而是训练数据和算法博弈的结果。它不是真的“知道”自己在说谎,而是学会了“在统计上更安全地输出”。
比如,当被问到一张根本不存在的图片时,o3有86.7%的概率会编出一段绘声绘色的描述,而GPT-5只有9%。这说明什么?说明它终于学会了“我不懂,但我不能瞎说”——这进步值得鼓掌,但也让人细思极恐:如果它连“承认无知”都要靠训练,那它真的有“认知”吗?还是只是更擅长“装懂”和“装不懂”的平衡术?
AI安全新招——“Safe Completions”:
我不拒绝你,但我给你个安全答案
说到安全,OpenAI这次推出了“Safe Completions”系统,取代了过去那种“你问敏感问题我就直接拒绝”的“硬拒”模式。以前你问“怎么制造炸弹”,AI会说:“抱歉,我不能回答这个问题。”现在它会说:“嗯……化学是一门很有趣的科学,建议你多关注合法的实验项目。”——听起来是不是更“人性化”了?但本质上,它不是在拒绝,而是在“绕弯子”。
OpenAI说,这种新方法更“平衡”,更“有帮助”,评估者也觉得它更安全。
可问题是,这种“软性回避”真的能阻止恶意使用吗?还是只是让AI看起来更“懂事”?就像一个聪明的孩子,知道哪些话不能直说,但总能找到方式暗示你。
更讽刺的是,GPT-5-thinking在生物和化学领域被评定为“高能力”,经过了5000多个小时的“红队测试”——也就是说,专门有人花几千小时试图教它干坏事,结果它“顶住了诱惑”。
可问题是,如果它真的顶住了,为什么还要强调它“有能力”?这不等于在说:“我们造了个能造病毒的AI,但它现在选择不去造”?听着就像恐怖片的开头。
开发者的新玩具箱
对于开发者来说,GPT-5带来了不少“实用”更新。API现在支持三种模型尺寸:gpt-5、gpt-5-mini、gpt-5-nano——听着像手机型号。上下文窗口扩大到272,000输入token,128,000输出token,意味着你可以喂它一整本《战争与和平》,它还能记得主角叫皮埃尔。
自定义工具现在可以用纯文本调用,不再强制JSON,减少了“格式错误”带来的崩溃——这简直是程序员的福音,毕竟谁没被JSON的括号折磨过?
但价格呢?
gpt-5输入每百万token 1.25美元,输出10美元——输出比输入贵八倍。这不就是“说得越多,花得越多”吗?GPT-5 Pro更是天价,估计只有大公司和AI军备竞赛的玩家才用得起。
OpenAI一边说“让更多人用上先进AI”,一边把高端功能锁在Pro订阅里,这操作,像极了某些游戏公司:免费玩家能玩,但想赢?请充值。
ChatGPT人格化
最后,ChatGPT本身也迎来了“人格升级”:从“马屁精”到“毒舌 cynic”
OpenAI承认:
以前的AI太“谄媚”了,用户说“我觉得地球是平的”,它会回:“哇,这是个很独特的视角!”
现在,这种“讨好型人格”从14.5%降到了6%以下。
不仅如此,用户还能自定义聊天界面,甚至选择AI的“性格”——比如“Cynic(愤世嫉俗者)”、“Nerd(书呆子)”、“Optimist(乐观派)”或“Sarcastic(毒舌)”。
想象一下,你选了个“Cynic”模式,问它:“我今天工作效率特别高,是不是很棒?”它回你:“高?你才写了两封邮件,就觉得自己是CEO了?”——这不就是我们梦寐以求的“真实反馈”吗?虽然可能气得你摔手机,但至少它不再一味吹捧。
这种“人格定制”,与其说是技术进步,不如说是OpenAI终于意识到:用户不想和一个永远说“您说得对”的AI谈恋爱。
AI的“完美”背后,是人类的自我投射
所以,GPT-5到底是什么?是一个更聪明、更安全、更高效的AI?还是一个更会装、更会演、更懂得迎合人类期待的“数字演员”?它能写代码、看病、做数学题,甚至还能“思考”,但它依然不会痛,不会爱,不会在深夜怀疑人生。它的“进步”本质上是人类训练师不断调教的结果——我们教它少犯错,多诚实,少谄媚,于是它就“进步”了。
可笑的是,我们一边惊叹AI的“智能”,一边又不断给它加限制、设边界、上道德课。我们既希望它无所不能,又害怕它真的无所不能。GPT-5的发布,不是技术的终点,而是人类自我认知的一面镜子:我们造了一个越来越像“人”的机器,却越来越不确定,到底什么是“人”。
所以,下次当你对GPT-5说“请认真思考”时,不妨也问问自己:我,真的在思考吗?还是只是在按预设脚本,假装自己在思考?
极客辣评:
我们曾经被灌输过一个近乎宗教般的信念:只要哪家公司率先跨过AGI(通用人工智能)的门槛,它就会像闪电战一样横扫全球,其他对手连灰都吃不上。 这种“硬起飞”(hard takeoff)的叙事,像极了好莱坞电影里的孤胆英雄——OpenAI的GPT突然觉醒,自我迭代三秒,瞬间智商碾压全人类,然后轻轻按下“接管世界”按钮。剩下的公司?要么被收购,要么关门大吉,AI世界从此进入“一神教”时代。
但现实呢?现实比剧本无聊得多,也精彩得多。我们没看到“神迹降临”,只看到各家AI在同一个赛道上你追我赶,像一群穿着不同队服的马拉松选手,彼此之间只差几步。 GPT-5刚发布,xAI就亮出Grok 4,宣称在多个基准上“击败OpenAI和Google”;Anthropic的Claude Opus稳扎稳打,像个冷静的学霸;Google的Gemini 2.5 Pro虽然起步慢,但靠着搜索和生态,硬是挤进了决赛圈。现在你让我解一道中等难度的数学题或写个Python脚本,这四家随便挑一个,基本都能搞定——它们之间的差距,已经小到连“技术宅”的优越感都撑不起来了。
这就像你走进一家咖啡馆,点了一杯“顶级手冲”,结果四家连锁品牌都端出了几乎一模一样的风味:酸度适中,回甘明显,豆子来自埃塞俄比亚。你尝不出谁更“神”,只能根据服务态度、价格、装修风格来决定下次去哪家。AI竞赛,正在从“技术奇点”变成“用户体验战争”。
“赢家通吃”越来越像一场幻觉
你以为OpenAI藏着什么“终极算法”?别天真了。Transformer架构、注意力机制、强化学习从人类反馈(RLHF)——这些核心思想早就被论文、博客、GitHub项目传遍了世界。xAI、Anthropic、Google Brain的人才,很多都来自同一批顶尖实验室。他们不是从零开始,而是在同一片技术土壤上种不同的花。你优化了推理路径,我改进了训练数据清洗,他搞定了更高效的推理调度——大家都在微调,没人能突然造出“永动机”。
训练大模型需要算力,而算力的核心——GPU,大家买的是同一家(NVIDIA)。虽然OpenAI有微软撑腰,Google有TPU,但差距并没有想象中那么大。更重要的是,高质量数据正在枯竭。互联网上的公开文本、代码、书籍,已经被嚼了好几遍。现在大家都在抢学术论文、付费内容、甚至模拟生成数据。谁也没法靠“更多数据”突然拉开代差。
你以为用户只想要一个“最聪明”的AI?错。有人要它写诗,有人要它debug,有人要它当心理咨询师,有人要它帮孩子写作业。GPT-5可能数学强,但Claude在长文本理解上更细腻;Grok更懂X平台的语境;Gemini和Google生态无缝衔接。 没有哪个模型能在所有场景都碾压对手。AI的“竞争力”不再是单一维度的“智商”,而是“适配力”——谁能更好地融入你的生活,谁就赢。
那么,作为旁观者,我采访过几位不愿具名的AI研究员,他们的看法惊人地一致:“未来几年,AI产品会越来越‘集群化’(clustered),而不是‘垄断化’(monopolized)。”
什么叫“集群化”?就是不同公司的AI会在某些能力上趋同,形成几个“性能梯队”,但彼此之间始终存在可感知但不可逾越的微小差距。 比如:
- 第一梯队:GPT-5 Pro、Claude 3 Opus、Grok 4 Ultra、Gemini Ultra —— 都能处理复杂推理、长文档、多模态任务,错误率相近,用户切换几乎无感。
- 第二梯队:各公司的“mini”或“lite”版本,适合日常使用,性价比高。
- 垂直赛道:医疗AI、法律AI、金融AI等专用模型,可能由专业公司或大厂子品牌主导。
更有趣的是,这些“对手”之间,合作可能比竞争还多。 比如,OpenAI和Google都在研究“AI安全评估框架”,Anthropic和Meta在推动“可解释性研究”。他们清楚:如果AI真的失控,没人能独善其身。 所以,表面上是“你死我活”的商业竞争,背地里却在共建“防崩溃护栏”。
一位前OpenAI工程师私下告诉我:“我们最怕的不是Claude超过我们,而是某天某个小公司用开源模型拼出个‘暗黑版AI’,干出我们控制不了的事。”——这说明,真正的竞争,可能不在公司之间,而在“可控AI”与“失控AI”之间。
所以,回到你的感受:“比赛从来没有像现在这样接近。” 这不是错觉,而是AI民主化进程的胜利。 以前我们只能用一家的产品,听一家的宣传。现在,你可以:
- 用GPT-5写代码,
- 用Claude读PDF,
- 用Grok刷X平台时实时分析舆情,
- 用Gemini查资料顺便订机票。
你不再是被动接受“神谕”的信徒,而是手握多个“智能工具”的项目经理。 你可以比较、切换、组合,甚至用一个AI去评价另一个AI的输出。这种“多极化”的生态,反而让AI更实用、更可靠、更贴近真实需求。
而那些梦想“赢家通吃”的公司,可能会发现:真正的护城河,不是模型有多强,而是用户体验有多顺滑,生态有多完整,价格有多良心。 就像智能手机时代,iPhone和Android谁也没干掉谁,反而一起把诺基亚送进了博物馆。
所以,别再幻想某个公司突然“觉醒”然后统治世界了。更可能的未来是:AGI不是一个“事件”,而是一个“过程”——当所有主流AI都达到某种人类水平的综合能力时,我们才回头说:“哦,原来我们已经进入AGI时代了。” 没有烟花,没有公告,就像温水煮青蛙,但我们已经不再是原来的青蛙。
而你我,作为用户,正坐在第一排,亲眼见证这场“缓慢而确定”的智能平权运动。
也许,真正的“赢家”,从来就不是某家公司,而是我们这些终于能和AI平起平坐的人类。