GPT-5.4发布 Reddit群嘲与护主大战现场实录


2026年3月6日,OpenAI发布GPT-5.4引发Reddit热议。本文以幽默脱口秀形式,深度解析关于模型性能、SWE-bench代码测试争议及各路AI模型的激烈对比。

OpenAI刚刚发了个新模型,叫GPT-5.4。

这就好比手机界的“十三香”刚发布,数码圈的粉丝们立马就分成了两派:一派是拿着计算器算性能提升的硬核极客,另一派是拿着放大镜找茬的“职业黑粉”。

这次的发布会,与其说是技术展示,不如说是一场大型的“找不同”游戏。大家都在盯着那个对比表格,看OpenAI到底有没有在数据上“注水”。结果你猜怎么着?Reddit那个叫r/singularity的板块直接炸锅了,有人捧上天,有人踩进泥。今天我就带大家去那个热闹的贴吧逛一圈,看看这群“赛博神仙”都在吵啥。

【第一幕:新模型的“体检报告”】

咱们先来看看主角GPT-5.4到底交了一份什么样的成绩单。这就好比学校期末考试,OpenAI把成绩单贴在了墙上,大伙儿都围过去看。

首先映入眼帘的是那个叫“Frontier Math”的数学考试,GPT-5.4 Pro这个版本考得那叫一个高,简直是数学课代表。
还有个叫OSWorld的电脑操作考试,它拿了75分,这意味着它现在真的能帮你操作电脑干活了,不再是只会动嘴皮子的“嘴强王者”。

但是!重点来了,到了那个叫SWE-bench的编程考试,也就是专门测试AI能不能修bug、写代码的科目,GPT-5.4的表现就有点像体育老师教的数学——差点意思。分数几乎没动,这就让很多指望它来写代码的程序员们心里犯嘀咕了。

这时候,贴吧里有个叫u/Pitiful-Impression70的网友就说了,现在的AI就像个偏科生,数学和动手能力(工具使用)突飞猛进,但写代码这门手艺好像遇到了瓶颈。这就好比你练举重练成了大力士,结果去参加射击比赛,发现准头还是不行。

大家都在讨论,是不是写代码这个领域,光靠堆算力已经没用了,得换个新方法才行?

【第二幕:消失的“对手”与“留白”的艺术】

看完了主角,咱们得看看观众席上的其他选手。这场大戏里,除了OpenAI,还有两个重量级选手:Google的Gemini和Anthropic的Claude。

你仔细看那个对比图,你会发现一个很搞笑的现象:表格里有些地方是空的,画了一条横线“-”。Reddit的侦探们就开始分析了,为啥是横线?是不是OpenAI心虚了?其实吧,真相往往很朴实——太贵了,跑不起。有个叫u/Forward_Yam_4013的网友就爆料,跑某些测试太烧钱,时间也太长,OpenAI可能觉得没必要为了个数据把钱包掏空,所以就干脆不测了。这操作,有点像考试前跟老师说:“老师,这道附加题太难了,我放弃,您看行不?”

再看另一边,大家都在拿Google的Gemini 3.1 Pro开涮。
有人说那个模型简直就是个“人工智障”,聊天老是胡说八道,写代码也不行。
但也有人反驳,说Gemini在画图、做设计这些“面子工程”上特别在行,就是那种长得好看但干不了重活的类型。
还有人提到,虽然Google现在看着不行,但苹果马上要在Siri里用Gemini了,到时候几十亿台设备都在用,那场面可就热闹了。
这就叫风水轮流转,今年到我家。

【第三幕:程序员的“修bug”大乱斗】

重头戏来了,咱们得聊聊那个让程序员们吵翻天的SWE-bench。这可是衡量AI能不能替代程序员的关键指标。

贴吧里有个叫u/Virtual_Plant_5629的哥们儿情绪特别激动,他指着OpenAI的鼻子骂,说他们故意不放Claude Opus 4.6的数据,因为放出来会打脸。原来啊,Claude那个模型在SWE-bench上表现特别好,OpenAI为了不显得自己菜,就把这块数据给“P”掉了。这就好比班里转来个学霸,老师为了不打击原班同学的自信心,故意不公布学霸的成绩。

但马上就有懂行的出来科普,说这里面有误会。Claude用的测试集和OpenAI用的不一样,一个是“Verified”(验证版),一个是“Pro”(专业版),难度不一样,根本没法直接比。这就好比一个考的是高考全国卷,一个考的是地方卷,你非说谁分高谁低,那不是耍流氓嘛。还有人说,现在的代码测试题本身就有问题,有些题目本身就是错的,AI就算再聪明也解不出来。这锅不能全让AI背,出题的也得背一半。

【第四幕:政治正确的“战争”与“隐私”】

聊着聊着,这帮网友的脑洞突然就大了起来,从技术讨论变成了政治辩论。这就好比你本来在讨论火锅底料哪个好吃,结果大家突然开始争论国家大事了。

有个叫u/Consistent_Ad8754的网友就特别生气,他说咱们这个贴吧现在简直是“反OpenAI”的重灾区。大家拼命黑OpenAI,说他们邪恶,结果转头就把Anthropic(Claude的母公司)捧上天。但他提醒大家,Anthropic的老板可是公开说过要用AI搞战争的,这比OpenAI还吓人呢!这就好比你嫌隔壁老王家的狗叫得烦,结果跑去夸老张家的狗,结果老张的狗是藏獒,专门咬人的。

还有人提到隐私问题,说OpenAI和美国政府走得太近,是不是在帮政府搞监控?大家就开始互喷,有的说要抵制,有的说别太天真。这让我想起一句话,科技公司就像大明星,只要名气大了,总有人爱你,也总有人恨你,你做什么都是错的。

【第五幕:真实体验的“翻车”现场】

最后啊,咱们得听听那些真正用过的人怎么说。毕竟,纸面数据再好看,不如实际用起来顺手。

有个叫u/garden_speech的网友就吐槽,他说他最近用ChatGPT 5.2感觉这玩意儿变蠢了,简直是“人工智障”本障。比如他问个学术问题,GPT就只会死板地搜关键词,搜不到就直接说“没找到”,一点举一反三的能力都没有。

结果他去问Claude,Claude就能给他扯出一堆相关的知识点,逻辑通顺得很。

这就好比你问路,一个只会照着地图念,地图上没标记的他就说不知道;另一个虽然没去过,但能根据周围的建筑帮你推理出来,你说你爱用哪个?

但也有人反驳说,那是你不会用,是你提问的方式有问题。这就跟咱们上学时候一样,有的老师教得好,有的老师教得差,你不能说学校里的书本知识都是错的吧?大家各执一词,谁也说服不了谁。

总结一下,GPT-5.4确实是个厉害的模型,数学好、会用工具,但在写代码这块儿好像遇到了瓶颈。