AI大语言模型、AGI

GPT-5.4发布 Reddit群嘲与护主大战现场实录

#ChatGPT等OpenAI技术 #大语言模型LLM

2026-03-06 29K banq

2026年3月5日OpenAI发布GPT-5.4引发Reddit热议：关于模型性能、SWE-bench代码测试争议及各路AI模型的激烈对比。

OpenAI刚刚发了个新模型，叫GPT-5.4。

这就好比手机界的“十三香”刚发布，数码圈的粉丝们立马就分成了两派：一派是拿着计算器算性能提升的硬核极客，另一派是拿着放大镜找茬的“职业黑粉”。

这次的发布会，与其说是技术展示，不如说是一场大型的“找不同”游戏。大家都在盯着那个对比表格，看OpenAI到底有没有在数据上“注水”。结果你猜怎么着？Reddit那个叫r/singularity的板块直接炸锅了，有人捧上天，有人踩进泥。

【第一幕：新模型的“体检报告”】

咱们先来看看主角GPT-5.4到底交了一份什么样的成绩单。这就好比学校期末考试，OpenAI把成绩单贴在了墙上，大伙儿都围过去看。

首先映入眼帘的是那个叫“Frontier Math”的数学考试，GPT-5.4 Pro这个版本考得那叫一个高，简直是数学课代表，感觉连华罗庚杯的题都难不倒它。还有个叫OSWorld的电脑操作考试，它拿了75分，这意味着它现在真的能帮你操作电脑干活了，不再是只会动嘴皮子的“嘴强王者”。你知道这意味着什么吗？以后你上班摸鱼，可以让AI替你操作电脑，你就在旁边喝着奶茶刷剧，老板还以为你在奋笔疾书呢。

但是！重点来了，到了那个叫SWE-bench的编程考试，也就是专门测试AI能不能修bug、写代码的科目，GPT-5.4的表现就有点像体育老师教的数学——差点意思。分数几乎没动，这就让很多指望它来写代码的程序员们心里犯嘀咕了。这就好比你请了个家教，说是能帮你孩子考上清华，结果发现他数学还没你孩子考得好，你是不是得怀疑一下这钱花得冤不冤？

这时候，贴吧里有个叫u/Pitiful-Impression70的网友就说了，现在的AI就像个偏科生，数学和动手能力（工具使用）突飞猛进，但写代码这门手艺好像遇到了瓶颈。这就好比你练举重练成了大力士，结果去参加射击比赛，发现准头还是不行。大家都在讨论，是不是写代码这个领域，光靠堆算力已经没用了，得换个新方法才行？比如让AI学会自己给自己debug，不然程序员们真的可以在家躺平了。

【第二幕：消失的“对手”与“留白”的艺术】

看完了主角，咱们得看看观众席上的其他选手。这场大戏里，除了OpenAI，还有两个重量级选手：Google的Gemini和Anthropic的Claude。

你仔细看那个对比图，你会发现一个很搞笑的现象：表格里有些地方是空的，画了一条横线“-”。Reddit的侦探们就开始分析了，为啥是横线？是不是OpenAI心虚了，怕把对手数据放出来显得自己太菜？

其实吧，真相往往很朴实——太贵了，跑不起。

有个叫u/Forward_Yam_4013的网友就爆料，跑某些测试太烧钱，时间也太长，OpenAI可能觉得没必要为了个数据把钱包掏空，所以就干脆不测了。这操作，有点像考试前跟老师说：“老师，这道附加题太难了，我放弃，您看行不？”或者说，这根本就是“我不跟你玩了，因为玩不起”的阿Q精神。

再看另一边，大家都在拿Google的Gemini 3.1 Pro开涮。

有人说那个模型简直就是个“人工智障”，聊天老是胡说八道，写代码也不行。但也有人反驳，说Gemini在画图、做设计这些“面子工程”上特别在行，就是那种长得好看但干不了重活的类型。

Simon Willison的博主就专门测试了Gemini 3.1 Pro画SVG图的能力，让它画一只骑自行车的鹈鹕，结果这家伙画得还真不赖，连羽毛的渐变效果都考虑到了，还在代码里贴心地加了注释，简直是AI界的灵魂画手。

还有人提到，虽然Google现在看着不行，但苹果马上要在Siri里用Gemini了，到时候几十亿台设备都在用，那场面可就热闹了。这就叫风水轮流转，今年到我家。说不定哪天你对着iPhone喊“嘿Siri”，结果背后是Google的脑子在转，想想还挺魔幻的。

【第三幕：程序员的“修bug”大乱斗】

重头戏来了，咱们得聊聊那个让程序员们吵翻天的SWE-bench。这可是衡量AI能不能替代程序员的关键指标。

贴吧里有个叫u/Virtual_Plant_5629的哥们儿情绪特别激动，他指着OpenAI的鼻子骂，说他们故意不放Claude Opus 4.6的数据，因为放出来会打脸。原来啊，Claude那个模型在SWE-bench上表现特别好，OpenAI为了不显得自己菜，就把这块数据给“P”掉了。这就好比班里转来个学霸，老师为了不打击原班同学的自信心，故意不公布学霸的成绩。但马上就有懂行的出来科普，说这里面有误会。Claude用的测试集和OpenAI用的不一样，一个是“Verified”（验证版），一个是“Pro”（专业版），难度不一样，根本没法直接比。这就好比一个考的是高考全国卷，一个考的是地方卷，你非说谁分高谁低，那不是耍流氓嘛。

还有人说，现在的代码测试题本身就有问题，有些题目本身就是错的，AI就算再聪明也解不出来。OpenAI自己都承认，在他们抽检的题目里，有超过60%的未解决问题，从题面描述出发就应该是无法被正确解决的。这锅不能全让AI背，出题的也得背一半。比如有个题目是要实现某个功能，但测试用例里却要求必须用某个特定的参数名，如果你用了另一个完全合理的命名方式，测试就失败了。这就像你考试写作文，明明写得挺好，但老师非说你的题目没按他想的写，就不给分，你说气不气人？所以现在这个排行榜的参考价值，就跟电视购物的“限量版”一样，得打个大大的问号。

【第四幕：政治正确的“战争”与“隐私”】

聊着聊着，这帮网友的脑洞突然就大了起来，从技术讨论变成了政治辩论。这就好比你本来在讨论火锅底料哪个好吃，结果大家突然开始争论国家大事了。

有个叫u/Consistent_Ad8754的网友就特别生气，他说咱们这个贴吧现在简直是“反OpenAI”的重灾区。大家拼命黑OpenAI，说他们邪恶，结果转头就把Anthropic（Claude的母公司）捧上天。但他提醒大家，Anthropic的老板可是公开说过要用AI搞战争的，这比OpenAI还吓人呢！这就好比你嫌隔壁老王家的狗叫得烦，结果跑去夸老张家的狗，结果老张的狗是藏獒，专门咬人的。还有人提到隐私问题，说OpenAI和美国政府走得太近，是不是在帮政府搞监控？大家就开始互喷，有的说要抵制，有的说别太天真。这让我想起一句话，科技公司就像大明星，只要名气大了，总有人爱你，也总有人恨你，你做什么都是错的。

【第五幕：真实体验的“翻车”现场】

最后啊，咱们得听听那些真正用过的人怎么说。毕竟，纸面数据再好看，不如实际用起来顺手。

有个叫u/garden_speech的网友就吐槽，他说他最近用ChatGPT 5.2感觉这玩意儿变蠢了，简直是“人工智障”本障。比如他问个学术问题，GPT就只会死板地搜关键词，搜不到就直接说“没找到”，一点举一反三的能力都没有。结果他去问Claude，Claude就能给他扯出一堆相关的知识点，逻辑通顺得很。这就好比你问路，一个只会照着地图念，地图上没标记的他就说不知道；另一个虽然没去过，但能根据周围的建筑帮你推理出来，你说你爱用哪个？

但也有人反驳说，那是你不会用，是你提问的方式有问题。这就跟咱们上学时候一样，有的老师教得好，有的老师教得差，你不能说学校里的书本知识都是错的吧？大家各执一词，谁也说服不了谁。还有人翻出旧账，说去年GPT-5刚发布的时候也是被骂惨了，强制取代旧模型，搞得大家好像失去了心灵伴侣一样，奥特曼还罕见地出来道歉。看来每次大版本更新，都是一场用户和开发商的“斗智斗勇”啊。

总结一下，GPT-5.4确实是个厉害的模型，数学好、会用工具，但在写代码这块儿好像遇到了瓶颈。