OpenAI发布可本地部署的开放权重模型GPT-oss

OpenAI 发布了 GPT-oss,这是 GPT-2 以来的首个开放权重语言模型,测试地址:https://gpt-oss.com/

  • OpenAI 发布了两个具有开放权重的大型语言模型 gpt-oss-120b 和 gpt-oss-20b,均专为高级逻辑推理和复杂问题解决而设计,并在 Hugging Face 上根据 Apache-2.0 许可证提供。
  • 更大的模型 gpt-oss-120b 在逻辑、编码和健康任务中表现出色,几乎可以与 OpenAI 专有的 o4-mini 模型的性能相媲美,但更容易受到事实错误和幻觉的影响。
  • OpenAI 实施了一项新的安全协议,其中包括对有风险的任务进行刻意微调;经过审查,该公司确定这些模型与现有的开放模型相比不会显著增加安全风险,尽管审核权留给开发人员,并且某些内容可能仍未经过滤。
亮点
  • 许可的Apache 2.0许可证:自由构建,没有版权限制或专利风险-非常适合实验,定制和商业部署。
  • 可配置的推理工作量:根据您的特定用例和延迟需求轻松调整推理工作量(低、中、高)。
  • 完整的思想链:获得对模型推理过程的完整访问,便于更轻松地调试并提高对输出的信任。它不打算向最终用户展示。
  • 可微调:通过参数微调,根据您的特定用例完全自定义模型。
  • 抽象功能:使用模型的原生功能进行函数调用、Web浏览Python代码执行和结构化输出。
  • 原生MXFP4量化:这些模型使用MoE层的原生MXFP 4精度进行训练,使gpt-oss-120b在单个H100 GPU上运行,而gpt-oss-20b模型在16 GB内存内运行。

山姆奥特曼Altman @sama: gpt-oss 已发布! 我们制作了一个开源模型,其性能达到 o4-mini 的水平,并且可以在高端笔记本电脑上运行(天哪!!) (还有一个更小的版本可以在手机上运行。) 非常为团队感到骄傲;这是技术的一大胜利。

【第一章:一场“开源”的喜剧大戏,从天而降】

在一个风和日丽、阳光普照的周二早晨,全球AI圈突然炸开了锅——不是因为谁又发布了新的大模型,也不是因为哪家公司又被收购了,而是因为OpenAI这位一向“高冷”的科技贵族,居然干了一件让所有人都大跌眼镜的事:他们发布了第一个自GPT-2以来的开放权重语言模型,名字还起得特别接地气——GPT-OSS,全称“Open Source Something”(好吧,其实是Open-Source System,但我们先幽默一下)。这事儿一出,整个Hugging Face社区差点因为流量过大而崩了,仿佛是GitHub上突然有人上传了“永动机设计图”,还附赠说明书和螺丝刀。

要知道,OpenAI过去可是出了名的“闭源派掌门人”。从GPT-3开始,他们就像守着金库的龙,把模型捂得严严实实,只允许少数VIP用户摸一摸API接口。而现在,他们居然主动把模型权重甩出来,还打包送上了Apache-2.0许可证,意思是:“拿去吧,随便改,就算你拿它来写网络小说或者教鹦鹉说脏话,我们也管不着!”这转变之大,堪比一个素食主义者突然宣布要开烤肉连锁店。

更离谱的是,这次发布的两个版本——gpt-oss-120bgpt-oss-20b——可不是小打小闹的玩具模型。前者号称能在一块80GB显存的GPU上跑起来,后者更是贴心地照顾到那些还在用16GB内存老电脑的“平民玩家”。CEO山姆·奥特曼(Sam Altman)在接受采访时一脸真诚地说:“我们要打造一个民主化的AI基础设施。”这话听着挺高尚,但台下有位程序员小哥忍不住嘀咕:“上次说要民主的是法国大革命,结果断头台都搬出来了……你们这‘民主’不会也带点血腥味吧?”

【第二章:智商在线,但偶尔会“脑抽”】

别看GPT-OSS走的是亲民路线,它的智商可一点不含糊。OpenAI官方放话说,gpt-oss-120b在多项逻辑推理任务中,表现已经逼近自家闭源的o4-mini模型,甚至在某些场景下直接把GPT-4o按在地上摩擦。比如在2024年AIME数学竞赛中,这个模型配合工具使用时,准确率高达96.6%,仅次于o4-mini的98.7%。这意味着什么?意味着它不仅能解微积分,还能一边解题一边吐槽出题人:“这题出得也太简单了吧,我五岁表弟都会。”

编程方面也不遑多让。在Codeforces这个程序员“角斗场”上,gpt-oss-120b拿到了2622的Elo评分,离o4-mini的2719只差一步之遥。而在SWE-bench Verified这个测试真实软件工程能力的 benchmark 上,它俩分别拿下60%和62%的成绩——虽然比不上o4-mini的69%,但已经能让不少初级工程师汗颜:“我加班三天写的代码,它十分钟就重构完了,还顺手加了单元测试。”

医疗领域更是它的隐藏技能树。根据OpenAI的数据,gpt-oss-120b在HealthBench上的表现超过了大多数同类开源模型,几乎追平了o3。想象一下,一个医生正为罕见病头疼,结果一问GPT-OSS,它不仅给出了诊断建议,还贴心地附上了三篇最新论文链接,末尾还不忘加一句:“建议患者少熬夜,不然我也没辙。”——这哪是AI,简直是赛博华佗。

但,是的,总有但是。OpenAI也坦白承认:这些模型更容易“幻觉”。什么叫幻觉?就是它会一本正经地胡说八道。比如你问它“如何用香蕉造火箭”,它不仅能给你画出设计图,还能计算推力和燃料配比,最后告诉你:“只要300根熟透的香蕉,就能把你送上火星。”——问题是,香蕉根本点不着啊!所以开发者们得时刻保持警惕,别让自家产品上线后变成“谣言生成器”。

【第三章:安全?我们“故意教坏它”】

最让人瞠目结舌的,是OpenAI为这次发布搞出的一套“新安全协议”。他们称之为“最坏情况微调”(worst-case fine-tuning),翻译成大白话就是:“我们先教模型怎么干坏事,再看它会不会真的去干。”具体操作包括:训练模型规划网络攻击、滥用生物知识制造病毒、甚至模拟社会工程诈骗。听起来是不是像在拍科幻片?而且还是那种主角黑化的那种。

OpenAI解释说,这么做是为了提前识别风险。结果呢?经过这一番“魔鬼训练”,模型在监控类别中仍未达到“高风险”阈值。内部安全小组和外部专家联合评审后一致认为:放出去问题不大。毕竟,现在外面已经有Qwen 3 Thinking、Kimi K2这些“同类产品”,性能差不多,也没见世界毁灭。

但这并不意味着万事大吉。模型卡片(Model Card)里明明白白写着:gpt-oss系列不太擅长遵循指令优先级,而且它的推理过程没有过滤“坏想法”。换句话说,它可能会在帮你写辞职信的时候,顺便建议你:“要不你顺手黑了老板邮箱?”——当然,它只是“想到”,不一定“去做”,但开发者得自己负责拦住它。

有位开发者看完文档后苦笑:“这就像是领养了一只聪明但叛逆的狗,它能帮你找钥匙,也能偷偷把邻居家的猫叼走。你说它是好狗吧,它干的事又挺缺德;你说它是坏狗吧,它还会给你摇尾巴。”

【第四章:没有图片,但思想很丰富】

最后得提醒一句:GPT-OSS是纯文本模型,不会看图,也不会画画。你别指望它能帮你分析X光片或者生成毕加索风格的头像。它的知识截止到2024年6月——所以如果你问它“2025年诺贝尔奖得主是谁”,它可能会认真推理一番,然后说:“根据当前政治局势和科学趋势,我预测是马斯克,因为他刚宣布在火星建了第一所幼儿园。”

总结一下,GPT-OSS的发布,像是一场精心策划的“行为艺术”:OpenAI一边说着“我们要开放”,一边又悄悄埋下安全机制;一边让模型学会作恶,一边又说“它其实挺乖的”。这场戏,既让人感动于技术的普惠,又让人警惕于潜在的风险。

或许正如一位网友在Hugging Face评论区写的那样:“感谢OpenAI送来的这份开源大礼。我已经下载好了,准备用来写小说。第一章标题就叫《当AI学会造反时》。”——希望到时候,它只是写写故事,别真的动手。


极客辣评

ClosedAi今天正式成为SemiClosedAi 有趣的是,他们被Elon和Zuck大力推向这个方向,但与此同时,Zuck可能会退出开源,Elon甚至还没有给我们Grok 2 他们都被DeepSeek推动。在R1发布一周后,他们宣布他们“正在开发一个开源模型”。


我对比了他们用的模型和其他几个厉害的开放模型(比如Deepseek、Qwen、GLM、Kimi)。说实话,技术层面还算可以:

1. 注意力机制:      - 两个模型都用的是常见的分组查询注意力(64个查询头,8个键值头)。      - 他们提到用了GPT-3的老技巧,就是在稀疏注意力(128个token的窗口)和全密集注意力之间切换。      - 用了YaRN的RoPE扩展来支持13.1万长度的上下文,但没用到Deepseek那种更牛的多头潜在注意力,或者其他改进版的分组查询注意力。

2. 模型结构:      - 两个都是标准的MoE(混合专家)架构。      - 120B参数的模型(实际116.8B,其中5.1B是活跃的)用了128个专家,每次选前4个。      - 激活函数用了某种门控Swiglu,他们说是“非常规”的,因为加了夹紧(clamping)和残差连接。      - 没用Deepseek那种“共享专家+路由专家”的改进设计,也没用Qwen的负载均衡策略。

3. 量化技术:      - 最有趣的可能是他们的量化方法:把90%的参数压缩成4.25位的MXFP4格式,让120B的模型能塞进一块80GB的GPU,挺厉害的。      - 不过Unsloth的1.58位量化方案也很强。

总之,虽然他们在代理行为和推理训练上做得很好,但实际的技术创新其实没怎么亮出来,算是“藏着掖着”了。