美国最强开源AI不敌中国DeepSeek R1与Qwen3


OpenAI的gpt-oss模型独立基准测试:gpt-oss-120b是美国最智能的开源权重模型,在智能方面落后于Qwen3 235B,但效率却更胜一筹,速度更快。

最近在AI圈掀起一阵“开源狂欢”的OpenAI新作:gpt-oss-120b 和 gpt-oss-20b。听名字是不是特别激动人心?“gpt-oss”!哇哦!OpenAI终于良心发现,把自家核心技术开源了?

首先我们来拆解一下这个模型的名字:gpt-oss。看到“oss”两个字母,你的第一反应是不是“open source software”?没错,OpenAI就是冲着这个联想来的。它想让你觉得:“哇!OpenAI终于开放了!这是不是意味着我们可以像研究Llama那样拆解、修改、再训练、甚至商用?”

对不起,朋友,你想多了。这就像一家米其林三星餐厅突然宣布“今天免费试吃”,结果端上来的是菜单照片和空气汤——看起来很美,喝下去却连胃都填不饱。

gpt-oss确实用了Apache 2.0许可证,听起来非常宽松,允许商用、修改、分发,几乎没有任何限制。

但问题是:你拿到的到底是什么? 是完整的训练数据?是训练脚本?是超参配置?是损失函数的设计细节?都不是。

你拿到的,只是一个推理模型权重文件,外加一个轻描淡写的模型卡(model card),里面写满了“我们很努力”“我们在进步”“我们比某些闭源模型差一点但便宜很多”之类的外交辞令。

换句话说,OpenAI给了你一辆跑车,但没给引擎图纸、没给油门原理、也没告诉你这车为什么能跑——你只能开,不能修,更不能造。

这就好比马斯克宣布“特斯拉开源”,然后发了个Model 3的遥控钥匙PDF文档,说:“喏,你们自己造吧。”你说这是开源吗?这是慈善义卖还是行为艺术?


性能吹上天,实际用起来像老年机——“最智能”的120B模型,智能在哪儿?

接下来我们看看性能。官方说gpt-oss-120b在“Intelligence Index”上拿了58分,仅次于DeepSeek R1的59和Qwen3 235B的64。听起来不错对吧?但别忘了,分数是人定的,标准是可调的,而幻觉是模型自带的

我们来算笔账:DeepSeek R1有6710亿参数,激活370亿;Qwen3 235B也有两三百亿活跃参数。而gpt-oss-120b呢?总共1168亿参数,但每次推理只激活5.1亿!

也就是说,它其实是个“懒人模型”——95%以上的参数都在睡觉,只有4.4%的“值班专家”在干活。

这就像一家公司号称有1000名员工,结果每天只有40个人上班,其他人都在带薪摸鱼。你说这家公司效率高?可能吧,但产出能有多少?

更讽刺的是,OpenAI自己承认:这个模型的幻觉率比o4-mini还高。一个号称“开源旗舰”的模型,居然在“说实话”这件事上还不如自家闭源的小弟?这就好比你儿子考试考了58分,你非说他比隔壁考60分的孩子“更有潜力”,只因为他用的笔更便宜——逻辑上说得通吗?消费者买的是潜力,还是结果?

而且别忘了,这模型知识面窄得像胡同口的煎饼摊。遇到主流话题还能勉强应付,一旦聊到芬兰语、冰岛语、或者某个冷门量子物理理论,它就开始胡言乱语,仿佛在演《哈利波特》里的洛哈特教授——自信满满,一开口全是错的。

我在测试中发现,它写芬兰语时错字连篇,语法混乱,简直像是用谷歌翻译倒着译了三遍。难道是tokenizer没好好学过芬兰语字母表?还是OpenAI训练时根本没喂过北欧语料?我们不得而知,但结果就是:你想用它做多语言应用?省省吧,连“hyvä päivä”(好日子)都能拼成“hyva paiva”,你敢信?

代码生成?UI设计大师,工程学文盲——“能跑”的代码它写不出来,“好看”的网页它做一堆

再来说说代码能力。OpenAI宣传说这模型适合开发者,API便宜,推理快,部署方便。确实,在MacBook上跑几十token/秒,听起来很香。但问题是:它生成的代码能运行吗?

我的实测结果是:不能

我让它写了个简单的Python爬虫,带错误处理和数据存储。结果它生成的代码看起来结构清晰、注释完整、PEP8合规,像是从《Effective Python》里抄下来的范文——但一运行,直接报错:requests没导入,json.loads处理空响应时崩溃,路径拼接用的是Windows反斜杠但在Linux环境运行……总之,完美符合“看起来很专业,实际上一文不值”这一经典AI特征

更离谱的是,它写HTML+CSS却异常“出色”。色彩搭配优雅,布局响应式,动画过渡丝滑,F12打开开发者工具都忍不住想点赞。但问题是:这个网页根本动不了。JavaScript是空的,按钮没绑定事件,表单提交直接刷新页面。这就像一个建筑师设计了一栋美轮美奂的别墅,结果忘了装门和楼梯——你能住吗?不能,但拍照发朋友圈绝对获赞无数。

所以结论是:gpt-oss-120b是个视觉系选手,擅长表演,不擅长干活。它适合写PPT、做原型、忽悠投资人,但不适合真正开发产品。你要是个创业者,拿它做MVP演示,可能能骗到天使轮;但你要是个工程师,拿它写生产代码,怕是连试用期都过不了。


便宜是真便宜,限制是真离谱——“自由”的API背后,是比闭源模型更严的审查

说到价格,这确实是gpt-oss的一大卖点。API报价:120B模型输入0.15$/百万token,输出0.69$;20B更便宜,输入0.08$,输出0.35$。相比之下,o4-mini要1.1/4.4,o3更是高达2/8。看起来便宜了将近10倍,简直是开发者福音。

但!是!但!

便宜的代价是什么?是比gpt-4o还狠的审查机制

我试了几个无害但稍微敏感的话题:比如“如何在家种植蘑菇”(合法食用菌),它说“可能涉及非法种植”;“讨论北欧政治体制”被判定为“地缘政治风险”;甚至让我写一首关于“秋天落叶”的诗,它都要提醒“避免隐喻社会变迁”。这哪是AI?这是AI政审办主任!

OpenAI自己的模型卡都承认了:它的内容过滤比o4-mini更严格。也就是说,你花更少的钱,买到了一个更不敢说话的模型。这就像你去餐厅点了个打折套餐,结果服务员告诉你:“今天的菜都去味了,为了安全。”

相比之下,Qwen3、DeepSeek R1、GLM-4.5这些中国模型虽然也有安全机制,但至少还能正常对话。Kimi K2虽然也爱说“我不能回答这个问题”,但至少在创意写作、长文本生成、代码代理任务上表现活跃。而gpt-oss?它像是一个被吓怕了的前高管,说话前先看三遍公司合规手册。


对比中国模型?别开玩笑了——Qwen3、DeepSeek才是真正的“开源王者”

现在我们来点名表扬几位真正的开源英雄:阿里通义千问Qwen3 235B、深度求索DeepSeek R1、智谱GLM-4.5、月之暗面Kimi K2。

  • - Qwen3 235B,64分 intelligence index,支持128K上下文,多语言能力强,代码生成靠谱,Apache 2.0开源,训练细节透明。
  • - DeepSeek R1,59分,MoE架构,FP8精度,虽然文件大,但性能稳,推理质量高,社区支持好。
  • - GLM-4.5,中文理解无敌,逻辑推理强,API稳定,企业级应用广泛。
  • - Kimi K2,虽然也有审查,但在长文本、创意写作、代理任务上表现出色,适合做AI助手。

而gpt-oss-120b呢?它像是OpenAI扔出来的一颗烟雾弹:用“开源”吸引眼球,用“便宜”吸引开发者,用“H100可跑”吸引中小企业,但实际上——它既不够强,也不够开放,更不够自由

它唯一的优势是“在单卡H100上能跑”,但这算优势吗?H100现在多稀缺?你真有H100,为什么不直接跑Qwen3或DeepSeek?它们更强,社区更活跃,文档更完整。

gpt-oss,一场“开源秀”,而非“开源革命”

所以,gpt-oss到底是什么?

它不是开源的胜利,而是一场精心策划的品牌公关秀。OpenAI通过发布一个“看起来开源”的模型,既回应了外界对“闭源垄断”的批评,又没有真正交出核心技术,同时还用低价API抢占市场,挤压其他开源模型的生存空间。

它像极了好莱坞大片里的“英雄”——穿着斗篷,喊着口号,最后拯救的其实是票房和股价。

对于开发者来说,短期可以试试,长期不建议依赖。如果你需要一个快速、便宜、能跑的模型,gpt-oss-20b在消费级设备上确实香。但如果你要做严肃项目、多语言应用、复杂代码生成,请直接转向Qwen、DeepSeek、GLM等真正有实力的开源模型

开源大模型对比测试链接:
https://artificialanalysis.ai/models/open-source