中国Z.ai发布排名第三的混合全能大模型GLM-4.5

banq


z.ai 是一个多模态人工智能平台,由国内团队开发,主打文本、图像、音频等多模态内容的生成与理解能力。其定位类似于 OpenAI 的 ChatGPT 或 Anthropic 的 Claude,但更强调中文场景优化和多模态融合。

将GLM-4.5与OpenAI,Anthropic,Google DeepMind,xAI,Alibaba,Moonshot和DeepSeek的各种模型进行了12个基准测试,包括agentic(3),reasoning(7)和Coding(2)。总体而言,GLM-4.5排名第三,GLM-4.5 Air排名第六。

今天,我们介绍两款新的GLM系列成员:GLM-4.5和GLM-4.5-Air -我们最新的旗舰型号。GLM-4.5拥有3550亿个总参数和320亿个活动参数,GLM-4.5-Air拥有1060亿个总参数和120亿个活动参数。这两个模型都是为了将推理、编码和代理功能统一到一个模型中,以满足快速增长的代理应用程序越来越复杂的需求。

GLM-4.5和GLM-4.5-Air都是混合推理模型,提供了:用于复杂推理和工具使用的思维模式和用于即时响应的非思维模式。它们可以在Z.aiZ.ai API上获得,开放权重可以在HuggingFaceModelScope上获得。

特点:

  • 在推理思维模式下,GLM-4.5和GLM-4.5-Air可以解决包括数学、科学和逻辑问题在内的复杂推理问题。
  • GLM-4.5擅长编码,包括从头开始构建编码项目和代理解决现有项目中的编码任务。它可以与现有的编码工具包无缝结合,如Claude CodeRoo CodeCodeGeex
  • GLM-4.5展示了全面的全栈开发功能,可以无缝创建包含前端实现、数据库管理和后端部署的Web应用程序。GLM-4.5生成的前端界面展示了增强的功能和美学吸引力,展示了与人类设计偏好的强烈一致性。此外,GLM-4.5在生成演示材料(包括幻灯片和海报)方面表现出上级性能,当与用于信息检索和上下文增强的代理工具集成时,其能力显著增强。
  • GLM-4.5在前端和后端开发方面都很出色,这使得它在构建现代Web应用程序方面非常强大。为了更好地展示其功能,我们开发了一个受Claude Code启发的编码代理。通过提供一个基本的全栈网站样板,该代理使用户能够用几个字创建一个完整的网站。用户可以毫不费力地添加功能,并通过多轮对话完善他们的项目,使编码过程顺利和愉快。

模型资料

  • SOTA在各个类别中的表现,重点是代理能力
  • GLM4.5 Air是一个相对较小的型号,是第一个与前沿型号竞争的型号(基于共享基准)
  • 他们已经发布了BF 16,FP 8和Base模型,允许其他团队/个人轻松地进行进一步的培训和发展他们的模型
  • 他们使用MIT许可证
  • 混合推理,允许在同一模型上进行指导和思考行为
  • 对流行推理引擎(vLLM、SGLang)的零日支持
  • 分享了如何在GitHub中进行推理和微调的详细说明
  • 在他们的技术博客中分享培训方法


背景故事
大语言模型(LLM)就像是一个超级想当“全科学霸”的学生,不是那种只会做数学题的书呆子,也不是只会背古诗的文艺青年,而是想啥都会——上知天文,下知食堂阿姨今天有没有多给一勺肉的那种全能型选手。

为了成为“别人家的孩子”,它得练几大神功:  

  • 第一,啥问题来了都能扛,不怂,叫“一般问题解决”;  
  • 第二,不能死记硬背,得举一反三,比如老师考“鸡兔同笼”,你得能推出“猫狗同笼”咋算,这叫“泛化能力”; 
  • 第三,得有点常识,不能说“太阳从西边出来是因为它转累了”这种话,这叫“常识推理”;  
  • 第四,最牛的是——它还得自己卷自己,越学越聪明,这叫“自我改进”。

过去五年,OpenAI 家的“学霸兄弟连”开始发力:  

  • GPT-3 先去“感知知识培训班”深造,学会了从海量网页、小说、论坛里“偷师”人类的知识,像个海绵宝宝,疯狂吸水。  
  • 然后它弟弟 o1 更狠,直接报了“强化学习特训营”,学完之后不再傻傻地张口就来,而是先“冷静三秒,思考人生”,再回答,结果编程、算数据、解奥数题全开挂,简直是年级第一的苗子!

但问题来了——这些模型虽然厉害,却像是“偏科天才”:  

  • 有的像“代码狂魔”,写程序比打游戏还快;  
  • 有的是“数学战神”,微积分当早餐吃;  
  • 还有的是“推理大帝”,逻辑链条拉得比操场跑道都长。  

可你要让他们互相比试?那可就热闹了——代码高手算数可能还不如小学生,数学天才写代码可能满屏报错像在跳迪斯科。

所以,这时候咱们的“终极梦想选手”——GLM-4.5 闪亮登场!  
它的目标就一个:我要当全科满分、体育不挂、颜值还高、连班主任都忍不住夸的宇宙级学霸!  
它不满足于当“单项冠军”,而是要打通任督二脉,把编程、数学、推理、常识、自我进化全都融会贯通,目标是——在所有任务里都当MVP,让其他模型只能仰望它的背影,边看边喊:“这人怎么啥都会?!”

总之,GLM-4.5 的梦想,就是成为AI界的“六边形战士”,不靠外挂,全靠实力,卷死全场!


模型架构预训练

1. “MOE结构”:AI界的“分身术”大法!
GLM-4.5 没有走“肌肉猛男”路线(也就是一味堆参数、堆宽度),而是练了“MOE结构”全名叫 Mixture of Experts(专家混合),翻译成大白话就是:

> “我不一个人干所有活儿,我请一堆‘专家’,谁擅长啥,啥事就让谁干!”

比如你问:“1+1=?”——算术专家跳出来秒答;  
你问:“写首情诗”——文艺专家上线,开始伤春悲秋。  
这样,模型干活更高效,省电又省力,就像公司里分工明确,不内卷。

而且我们还加了“黑科技”:  
- 无损平衡路由:保证每个专家都“有活干,不闲着”,不会出现“三个和尚没水喝”。  
- S形门:就像给专家们装了个“智能门禁”,谁该出场、谁该闭嘴,系统自动判断,不抢戏。

2. 不做“胖模型”,要做“高个子”!

别的AI模型一看卷不过,就拼命“横向发展”——变宽、变胖(增加隐藏维度和专家数量),看起来参数贼多,像只充气的河豚。

但我们反其道而行之:我们不胖,但我们高!  
我们减少了“宽度”(就是每层的神经元数量和专家数),但疯狂增加层数(也就是模型的“高度”)——就像从1米8的帅哥,长成了2米3的巨人!

为啥?因为我们发现:越高的模型,越会“动脑子”。  
你让它解题,它不光是“背答案”,而是真能“推理”“思考”“举一反三”,像个会自己想问题的真学霸。

3. 注意力机制:让AI学会“眼观六路,耳听八方”

在模型的“大脑”里,有个叫自我注意力的部分,相当于它的“注意力雷达”。

我们用了两个神技:
- 分组查询注意力:不是让整个大脑一起盯着一句话看,而是分成几个小组,各盯各的关键词,效率翻倍,不累。
- 部分Rope:这是个“位置密码”,让AI知道“谁在前,谁在后”,比如“我打你”和“你打我”顺序一换,意思天差地别,靠它来分辨。

更离谱的是——我们用了96个注意力头!  
啥叫“头”?你可以理解成“眼睛”。  
普通模型可能就20~30只“眼睛”,我们直接装了96只,像个章鱼精,看得那叫一个细!

按理说,眼睛越多,学习应该越轻松,训练损失应该越小。  
但奇怪的是——训练时没啥提升,像是白装了。  
可一到考试(推理测试),比如MMLU(通识考试)、BBH(烧脑逻辑题),它居然秒杀全场

结论:这模型不是“考试型选手”,是“实战型战神”——学得不一定快,但一出手就知有没有!

4. 优化器:Muon——AI界的“红牛+咖啡+脑力充电宝”

训练模型就像让AI天天上晚自习,得有个好“班主任”督促它学习。  
我们没用普通的“老师”,而是请了Muon优化器——这玩意儿就像给AI灌了红牛加咖啡,还能自动调学习节奏。

效果是:  
- 学得更快(收敛加速)  
- 能一口气吃下更多数据(支持更大批量)  
- 还不容易“学崩溃”(稳定性强)

5. QK-Norm:给注意力“降火”

注意力机制有时候太激动,Q和K(查询和键)一碰就“火花四溅”,导致训练不稳定。  
所以我们加了个“冷静器”——QK-Norm,给它们的情绪降降温,让注意力逻辑更稳,不抽风。

6. MTP层:让AI学会“预判你的预判”

最后,我们给GLM-4.5和它的轻量版GLM-4.5-Air,加了个“超前预测外挂”——MTP(多令牌预测)层

这玩意儿有多牛?  
普通AI是“你说一句,我回一句”,像打乒乓球。  
它呢?是“你刚张嘴,我就猜到你下三句要说什么”,直接一口气把答案写好,等你问完,它“唰”地甩出来。

这叫推测解码——说白了,就是AI学会了“抢答”,还答得全对!

总结一下:GLM-4.5 是个啥?

它不是靠蛮力堆参数的“卷王”,  
而是靠结构精巧、脑子够深、眼睛够多、反应够快的“智慧型全能AI”!

  • 用“专家分身术”干活不累  
  • 长得高(层数多),推理强  
  • 96只“眼睛”盯着你,细节全抓  
  • Muon优化器带飞训练  
  • 还能预判你的问题,抢答王中王!


用强化学习slime训练AI
  别慌,不是真的黏糊糊绿胶水,而是个超酷的AI训练系统叫 slime(名字是“简洁高效强化学习”的缩写,但听着像《勇者斗恶龙》里的小怪),它专为像 GLM-4.5 这种“AI巨无霸”量身打造的强化学习(RL)神器!

什么是 slime?——不是怪物,是“AI私教天团”!

你以为强化学习(RL)就是让AI玩几把“贪吃蛇”就变聪明了?  
错!  
训练像 GLM-4.5 这种“通天学霸”,得让它不断试错、打怪、拿经验、升级装备,像打RPG游戏一样。

但问题来了:  
- 打怪太慢 → 数据不够  
- 怪刷新太慢 → GPU干坐着,电费白烧  
- AI一边想问题一边等数据 → 气到死机

所以,智障……啊不是,智者出手了!  
我们设计并开源了一个叫 slime 的强化学习系统——  
它不是史莱姆,它是史·莱·姆Scalable Learning Infrastructure for Models(模型可扩展学习基础设施)——  
名字听着像魔法药水,其实是AI界的健身房+教练+营养师+陪练机器人四合一!


slime 的三大“外挂技能”:

1. 灵活双模式训练:能合体,也能分身!

slime 最牛的地方是——它有两种“形态”:

- 合体模式(同步训练):  
  就像全班同学一起上晚自习,老师(训练)和学生(数据生成)在同一间教室,面对面讲题。  
  适合传统任务,比如让AI学推理、背题型。

- 分身模式(异步训练):  
  更猛!老师在机房狂训模型,学生在外“打副本”收集经验,打完再把战利品(数据)快递回来。  
  这样,老师不用等学生,学生也不用等老师,两边同时开工,效率拉满!

> 举个栗子:  
> 你想让AI当“虚拟助理”,它得上网查资料、订机票、写邮件……这些操作慢得像树懒洗澡。  
> 如果等它慢慢操作完再训练,GPU都快长蘑菇了。  
> 但用 slime 的“分身模式”——让它一边慢慢操作,我们一边用已有的数据先训练,两边不打架,效率起飞!


2. 彻底拆解:让“打怪”和“升级”各干各的!

以前的强化学习系统,就像一个人既要打怪,又要升级,结果怪还没打死,自己饿死了。

slime 说:不行!必须分工!

于是它把系统拆成两块:

  • Rollout 引擎(打怪小队):专门负责让AI在“环境”里试错、探索、收集数据,比如让它模拟订100次机票,看看哪次最省钱。
  • Training 引擎(升级中心):专门负责用这些数据训练模型,调参数,让AI越来越聪明。

这两队人马在不同的机器上跑,互不干扰,就像:
- 你在外面跑美团送外卖(打怪)  
- 我在教室里刷题背公式(升级)  
咱俩不抢CPU,不抢GPU,还能同时进步!

> ✅ 效果:再也不怕“打怪太慢拖累训练”,GPU 24小时满负荷运转,电费花得值!


3. 混合精度加速:用“低配画质”刷副本,省电又提速!

打怪(数据生成)其实不需要“4K高清画质”,用低一点的精度(比如 FP8)完全够用,就像你玩《原神》调成“省电模式”也能通关。

slime 就很聪明:
- 用 FP8(超低精度) 快速生成数据 → 打怪快如闪电  
- 但训练模型时,用 BF16(高精度) → 保证学习稳如老狗

> 好处:  
> 数据生成速度翻倍甚至三倍,但模型质量一点不降,  
> 相当于你用“极速模式”刷副本,BOSS掉的装备还是金色传说!



基于强化学习的后训练

第一幕:后期培训——AI的“高考后特训营”

LLM(大语言模型)光靠“预训练”(相当于背完高中三年课本)是不够的。  
它还得进入后期培训阶段,通过“自我打怪、自我升级”的方式,不断变强。

这个阶段的核心技能叫:强化学习(RL) ——  
翻译成人话就是:  
> “你干得好,系统给你点赞+奖励;你干得烂,系统直接给你一个大嘴巴子(不给分)。”

久而久之,AI就学会了:啥事能干,啥事不能干,啥操作最骚最高效!

第二幕:GLM-4.5 的“三项特训”——从学霸到“全能打工人”

GLM-4.5 不满足于只会答题,它要当一个能写代码、能搜资料、能用工具的“超级打工人”!

所以它在训练时,融合了两位“前辈”的绝技:

  • GLM-4-0414 的通用能力 → 相当于“通识教育毕业”,啥都懂点  
  • GLM-Z1 的推理能力 → 相当于“奥数冠军”,逻辑链拉满

然后,它还加了三项“地狱特训”:

1. 代理编码 → 能自己写代码、修Bug,像程序员996  
2. 深度搜索 → 不是百度一下就完事,而是“全网扒资料+交叉验证”,像福尔摩斯破案  
3. 通用工具使用 → 会调API、查数据库、用计算器,不再是“只会嘴炮”的AI

> ✅ 总结:它不再是个“答题机器”,而是个能动手、能思考、能联网、能交付成果的AI员工


第三幕:训练分两步——先“上课”,再“打怪”

训练不是一上来就让AI自由发挥,那叫“放养”,结果就是AI开始胡言乱语:“太阳是方的,因为昨天我梦见了。”

所以训练分两步走:

第一步:监督微调(SFT)——先当“好学生”

AI先被送去“补习班”,老师给它看一堆精心挑选的推理题人造的代理任务场景(比如:“请帮我订一张从北京到火星的机票”),然后告诉它:  
> “标准答案长这样,照着抄,不准发挥!”

这一步是为了让AI先学会“基本操作”,别一上来就跑偏。

第二步:强化学习(RL)——开启“打怪升级”模式

现在,AI毕业了,进入“开放世界”——  
没有标准答案,只有任务目标。  
它每做一个决定,系统就打分:  
- 找到正确信息?+10分!  
- 写的代码跑出bug?-5分!  
- 调用工具失败?直接红牌罚下!

通过这种“打怪+得分”的方式,AI一步步进化成“策略大师”。

第四幕:推理训练——在64K上下文中“马拉松式思考”

GLM-4.5 的脑子特别大,能记住整整64K个字的内容(相当于一篇超长作文从头看到尾还不忘)。

我们在这么长的上下文中,搞了一次单阶段强化学习,  
而且还用了“难度渐进课程表”——  
就像你学游泳:  
- 第一周:抱着浮板扑腾  
- 第二周:脱板游三米  
- 第三周:横渡泳池

AI也是:  
先做简单推理题 → 再挑战复杂逻辑 → 最后搞定“STEM地狱题”(数学、物理、编程混合大Boss)

我们还加了两个“防翻车技术”:

1. 动态采样温度 →  
   简单说就是:AI在探索时,有时要“大胆创新”,有时要“稳扎稳打”。  
   系统会自动调节它的“胆子大小”:  
   - 难题面前,让它冷静点,别瞎猜  
   - 简单题时,鼓励它多试试新招

2. 自适应裁剪 →  
   防止AI在更新策略时“一步踏错,全盘皆输”。  
   就像游戏里升级技能,不能一下子把所有属性点全加到“力量”上,否则变脆皮战士。  
   这个技术让它“稳步升级”,不冒进。

️ 第五幕:代理任务训练——AI的“真实世界实习”

为了让AI不只是“理论派”,我们给它安排了两份“实习工作”:

实习1:基于搜索的问答(Search-based QA)

任务:你不能瞎编答案,必须上网搜、查资料、交叉验证,然后给出靠谱回复。

我们是怎么训练它的?  
- 用“人在环”的方式:人类先从网页里提取关键信息  
- 再故意加点“混淆内容”(比如放个假新闻)  
- 让AI学会分辨真假,像“辟谣小能手”

> 举个栗子:  
> 问:“喝可乐能治新冠吗?”  
> 普通AI:可能回答“可能有用”(因为它在训练数据里见过“可乐+健康”)  
> GLM-4.5:直接上网搜,查权威来源,回你一句:“别闹,这是谣言。”

实习2:软件工程任务(SWE)

AI要完成真实的编程任务,比如:  
- 修一个GitHub上的Bug  
- 写个能跑通的API接口  
- 自动写测试用例

关键是什么?执行反馈!  
代码写完不能光看“语法对不对”,还得跑起来看结果:  
- 跑通了?+分!  
- 崩了?扣分!  
- 内存泄漏?直接挂科!

这样训练出来的AI,不是“代码生成器”,而是真·程序员

第六幕:技能迁移 + 专家蒸馏——把“特长生”变“全能王”

虽然训练只针对有限的几个任务(比如搜索和编程),  
但AI很聪明,它学会了“举一反三”!

> 比如它学会了“调用搜索引擎”,  
> 很快就举一反三:  
> “那我是不是也能调天气API?查地图?订外卖?”

这种能力叫技能迁移——  学了个技能,顺手把隔壁技能也学会了。

最后,我们还搞了个“专家蒸馏”——  
把在强化学习中变得超强的“专家版AI”的知识,  “压缩”进 GLM-4.5 的主模型里。

就像:  
> 把一个“奥数冠军+编程大神+搜索达人”的大脑精华,  
> 提炼成一本《超级学习笔记》,  
> 然后塞回普通学霸脑子里。



极客辣评
好家伙!这事儿简直离谱他妈给离谱开门——离谱到家了!
上周还在吹牛说那个叫‘Grok4’的AI是‘宇宙超级无敌大脑’(AGI),结果没过几天,一个免费送的‘小钢炮’模型,用你家电脑CPU都能跑,直接把它干趴下了!
更绝的是,这小钢炮还敢碰瓷最新款‘Qwen3’,直接把‘AI圈鄙视链’给掀桌子了!(打破迷恩?不,是打破‘你不行我不行大家都不行’的潜规则!)

——等等!还有更炸裂的更新!
我拿它做了个‘AI七项全能考试’(七边形基准测试),一开始以为它只是个‘抄作业小能手’,水平跟隔壁班学霸‘克劳德3.7’差不多。
结果仔细一看——我人傻了!
它连‘旋转的球撞墙会不会弹回来’这种物理题都算得贼准,甚至把球上的文字当贴纸一样跟着转!
活久见!以前哪个AI干过这种事?这哪是考试啊,这分明是开挂作弊还让老师拍手叫好!



通过openrouter上的模型进行测试,到目前为止,它看起来相当不错。

我唯一的抱怨是:推理感觉相当冗长
openrouter上的当前提供商(Z.ai)相对昂贵:两者结合起来,使这相当昂贵的大小,现在,特别是当比较qwen 3 - 235 b。



中国模型四杰:DeepSeek vs Qwen vs Kimi vs GLM



GLM一直是最好的小型/紧凑编码模型之一

GLM-4在C++方面并不擅长,但我喜欢它的地方是我可以用它来编码和创作