z.ai 是一个多模态人工智能平台,由国内团队开发,主打文本、图像、音频等多模态内容的生成与理解能力。其定位类似于 OpenAI 的 ChatGPT 或 Anthropic 的 Claude,但更强调中文场景优化和多模态融合。
将GLM-4.5与OpenAI,Anthropic,Google DeepMind,xAI,Alibaba,Moonshot和DeepSeek的各种模型进行了12个基准测试,包括agentic(3),reasoning(7)和Coding(2)。总体而言,GLM-4.5排名第三,GLM-4.5 Air排名第六。
今天,我们介绍两款新的GLM系列成员:GLM-4.5和GLM-4.5-Air -我们最新的旗舰型号。GLM-4.5拥有3550亿个总参数和320亿个活动参数,GLM-4.5-Air拥有1060亿个总参数和120亿个活动参数。这两个模型都是为了将推理、编码和代理功能统一到一个模型中,以满足快速增长的代理应用程序越来越复杂的需求。
GLM-4.5和GLM-4.5-Air都是混合推理模型,提供了:用于复杂推理和工具使用的思维模式和用于即时响应的非思维模式。它们可以在Z.ai、Z.ai API上获得,开放权重可以在HuggingFace和ModelScope上获得。
特点:
- 在推理思维模式下,GLM-4.5和GLM-4.5-Air可以解决包括数学、科学和逻辑问题在内的复杂推理问题。
- GLM-4.5擅长编码,包括从头开始构建编码项目和代理解决现有项目中的编码任务。它可以与现有的编码工具包无缝结合,如Claude Code,Roo Code和CodeGeex。
- GLM-4.5展示了全面的全栈开发功能,可以无缝创建包含前端实现、数据库管理和后端部署的Web应用程序。GLM-4.5生成的前端界面展示了增强的功能和美学吸引力,展示了与人类设计偏好的强烈一致性。此外,GLM-4.5在生成演示材料(包括幻灯片和海报)方面表现出上级性能,当与用于信息检索和上下文增强的代理工具集成时,其能力显著增强。
- GLM-4.5在前端和后端开发方面都很出色,这使得它在构建现代Web应用程序方面非常强大。为了更好地展示其功能,我们开发了一个受Claude Code启发的编码代理。通过提供一个基本的全栈网站样板,该代理使用户能够用几个字创建一个完整的网站。用户可以毫不费力地添加功能,并通过多轮对话完善他们的项目,使编码过程顺利和愉快。
模型资料
- SOTA在各个类别中的表现,重点是代理能力
- GLM4.5 Air是一个相对较小的型号,是第一个与前沿型号竞争的型号(基于共享基准)
- 他们已经发布了BF 16,FP 8和Base模型,允许其他团队/个人轻松地进行进一步的培训和发展他们的模型
- 他们使用MIT许可证
- 混合推理,允许在同一模型上进行指导和思考行为
- 对流行推理引擎(vLLM、SGLang)的零日支持
- 分享了如何在GitHub中进行推理和微调的详细说明
- 在他们的技术博客中分享培训方法
背景故事
大语言模型(LLM)就像是一个超级想当“全科学霸”的学生,不是那种只会做数学题的书呆子,也不是只会背古诗的文艺青年,而是想啥都会——上知天文,下知食堂阿姨今天有没有多给一勺肉的那种全能型选手。
为了成为“别人家的孩子”,它得练几大神功:
- 第一,啥问题来了都能扛,不怂,叫“一般问题解决”;
- 第二,不能死记硬背,得举一反三,比如老师考“鸡兔同笼”,你得能推出“猫狗同笼”咋算,这叫“泛化能力”;
- 第三,得有点常识,不能说“太阳从西边出来是因为它转累了”这种话,这叫“常识推理”;
- 第四,最牛的是——它还得自己卷自己,越学越聪明,这叫“自我改进”。
过去五年,OpenAI 家的“学霸兄弟连”开始发力:
- GPT-3 先去“感知知识培训班”深造,学会了从海量网页、小说、论坛里“偷师”人类的知识,像个海绵宝宝,疯狂吸水。
- 然后它弟弟 o1 更狠,直接报了“强化学习特训营”,学完之后不再傻傻地张口就来,而是先“冷静三秒,思考人生”,再回答,结果编程、算数据、解奥数题全开挂,简直是年级第一的苗子!
但问题来了——这些模型虽然厉害,却像是“偏科天才”:
- 有的像“代码狂魔”,写程序比打游戏还快;
- 有的是“数学战神”,微积分当早餐吃;
- 还有的是“推理大帝”,逻辑链条拉得比操场跑道都长。
可你要让他们互相比试?那可就热闹了——代码高手算数可能还不如小学生,数学天才写代码可能满屏报错像在跳迪斯科。
所以,这时候咱们的“终极梦想选手”——GLM-4.5 闪亮登场!
它的目标就一个:我要当全科满分、体育不挂、颜值还高、连班主任都忍不住夸的宇宙级学霸!
它不满足于当“单项冠军”,而是要打通任督二脉,把编程、数学、推理、常识、自我进化全都融会贯通,目标是——在所有任务里都当MVP,让其他模型只能仰望它的背影,边看边喊:“这人怎么啥都会?!”
总之,GLM-4.5 的梦想,就是成为AI界的“六边形战士”,不靠外挂,全靠实力,卷死全场!
模型架构预训练
1. “MOE结构”:AI界的“分身术”大法!
GLM-4.5 没有走“肌肉猛男”路线(也就是一味堆参数、堆宽度),而是练了“MOE结构”全名叫 Mixture of Experts(专家混合),翻译成大白话就是:
> “我不一个人干所有活儿,我请一堆‘专家’,谁擅长啥,啥事就让谁干!”
比如你问:“1+1=?”——算术专家跳出来秒答;
你问:“写首情诗”——文艺专家上线,开始伤春悲秋。
这样,模型干活更高效,省电又省力,就像公司里分工明确,不内卷。
而且我们还加了“黑科技”:
- 无损平衡路由:保证每个专家都“有活干,不闲着”,不会出现“三个和尚没水喝”。
- S形门:就像给专家们装了个“智能门禁”,谁该出场、谁该闭嘴,系统自动判断,不抢戏。
2. 不做“胖模型”,要做“高个子”!
别的AI模型一看卷不过,就拼命“横向发展”——变宽、变胖(增加隐藏维度和专家数量),看起来参数贼多,像只充气的河豚。
但我们反其道而行之:我们不胖,但我们高!
我们减少了“宽度”(就是每层的神经元数量和专家数),但疯狂增加层数(也就是模型的“高度”)——就像从1米8的帅哥,长成了2米3的巨人!
为啥?因为我们发现:越高的模型,越会“动脑子”。
你让它解题,它不光是“背答案”,而是真能“推理”“思考”“举一反三”,像个会自己想问题的真学霸。
3. 注意力机制:让AI学会“眼观六路,耳听八方”
在模型的“大脑”里,有个叫自我注意力的部分,相当于它的“注意力雷达”。
我们用了两个神技:
- 分组查询注意力:不是让整个大脑一起盯着一句话看,而是分成几个小组,各盯各的关键词,效率翻倍,不累。
- 部分Rope:这是个“位置密码”,让AI知道“谁在前,谁在后”,比如“我打你”和“你打我”顺序一换,意思天差地别,靠它来分辨。
更离谱的是——我们用了96个注意力头!
啥叫“头”?你可以理解成“眼睛”。
普通模型可能就20~30只“眼睛”,我们直接装了96只,像个章鱼精,看得那叫一个细!
按理说,眼睛越多,学习应该越轻松,训练损失应该越小。
但奇怪的是——训练时没啥提升,像是白装了。
可一到考试(推理测试),比如MMLU(通识考试)、BBH(烧脑逻辑题),它居然秒杀全场!
结论:这模型不是“考试型选手”,是“实战型战神”——学得不一定快,但一出手就知有没有!
4. 优化器:Muon——AI界的“红牛+咖啡+脑力充电宝”
训练模型就像让AI天天上晚自习,得有个好“班主任”督促它学习。
我们没用普通的“老师”,而是请了Muon优化器——这玩意儿就像给AI灌了红牛加咖啡,还能自动调学习节奏。
效果是:
- 学得更快(收敛加速)
- 能一口气吃下更多数据(支持更大批量)
- 还不容易“学崩溃”(稳定性强)
5. QK-Norm:给注意力“降火”
注意力机制有时候太激动,Q和K(查询和键)一碰就“火花四溅”,导致训练不稳定。
所以我们加了个“冷静器”——QK-Norm,给它们的情绪降降温,让注意力逻辑更稳,不抽风。
6. MTP层:让AI学会“预判你的预判”
最后,我们给GLM-4.5和它的轻量版GLM-4.5-Air,加了个“超前预测外挂”——MTP(多令牌预测)层。
这玩意儿有多牛?
普通AI是“你说一句,我回一句”,像打乒乓球。
它呢?是“你刚张嘴,我就猜到你下三句要说什么”,直接一口气把答案写好,等你问完,它“唰”地甩出来。
这叫推测解码——说白了,就是AI学会了“抢答”,还答得全对!
总结一下:GLM-4.5 是个啥?
它不是靠蛮力堆参数的“卷王”,
而是靠结构精巧、脑子够深、眼睛够多、反应够快的“智慧型全能AI”!
- 用“专家分身术”干活不累
- 长得高(层数多),推理强
- 96只“眼睛”盯着你,细节全抓
- Muon优化器带飞训练
- 还能预判你的问题,抢答王中王!
用强化学习slime训练AI
别慌,不是真的黏糊糊绿胶水,而是个超酷的AI训练系统叫 slime(名字是“简洁高效强化学习”的缩写,但听着像《勇者斗恶龙》里的小怪),它专为像 GLM-4.5 这种“AI巨无霸”量身打造的强化学习(RL)神器!
什么是 slime?——不是怪物,是“AI私教天团”!
你以为强化学习(RL)就是让AI玩几把“贪吃蛇”就变聪明了?
错!
训练像 GLM-4.5 这种“通天学霸”,得让它不断试错、打怪、拿经验、升级装备,像打RPG游戏一样。
但问题来了:
- 打怪太慢 → 数据不够
- 怪刷新太慢 → GPU干坐着,电费白烧
- AI一边想问题一边等数据 → 气到死机
所以,智障……啊不是,智者出手了!
我们设计并开源了一个叫 slime 的强化学习系统——
它不是史莱姆,它是史·莱·姆:Scalable Learning Infrastructure for Models(模型可扩展学习基础设施)——
名字听着像魔法药水,其实是AI界的健身房+教练+营养师+陪练机器人四合一!
slime 的三大“外挂技能”:
1. 灵活双模式训练:能合体,也能分身!
slime 最牛的地方是——它有两种“形态”:
- 合体模式(同步训练):
就像全班同学一起上晚自习,老师(训练)和学生(数据生成)在同一间教室,面对面讲题。
适合传统任务,比如让AI学推理、背题型。
- 分身模式(异步训练):
更猛!老师在机房狂训模型,学生在外“打副本”收集经验,打完再把战利品(数据)快递回来。
这样,老师不用等学生,学生也不用等老师,两边同时开工,效率拉满!
> 举个栗子:
> 你想让AI当“虚拟助理”,它得上网查资料、订机票、写邮件……这些操作慢得像树懒洗澡。
> 如果等它慢慢操作完再训练,GPU都快长蘑菇了。
> 但用 slime 的“分身模式”——让它一边慢慢操作,我们一边用已有的数据先训练,两边不打架,效率起飞!
2. 彻底拆解:让“打怪”和“升级”各干各的!
以前的强化学习系统,就像一个人既要打怪,又要升级,结果怪还没打死,自己饿死了。
slime 说:不行!必须分工!
于是它把系统拆成两块:
- Rollout 引擎(打怪小队):专门负责让AI在“环境”里试错、探索、收集数据,比如让它模拟订100次机票,看看哪次最省钱。
- Training 引擎(升级中心):专门负责用这些数据训练模型,调参数,让AI越来越聪明。
这两队人马在不同的机器上跑,互不干扰,就像:
- 你在外面跑美团送外卖(打怪)
- 我在教室里刷题背公式(升级)
咱俩不抢CPU,不抢GPU,还能同时进步!
> ✅ 效果:再也不怕“打怪太慢拖累训练”,GPU 24小时满负荷运转,电费花得值!
3. 混合精度加速:用“低配画质”刷副本,省电又提速!
打怪(数据生成)其实不需要“4K高清画质”,用低一点的精度(比如 FP8)完全够用,就像你玩《原神》调成“省电模式”也能通关。
slime 就很聪明:
- 用 FP8(超低精度) 快速生成数据 → 打怪快如闪电
- 但训练模型时,用 BF16(高精度) → 保证学习稳如老狗
> 好处:
> 数据生成速度翻倍甚至三倍,但模型质量一点不降,
> 相当于你用“极速模式”刷副本,BOSS掉的装备还是金色传说!
基于强化学习的后训练
第一幕:后期培训——AI的“高考后特训营”
LLM(大语言模型)光靠“预训练”(相当于背完高中三年课本)是不够的。
它还得进入后期培训阶段,通过“自我打怪、自我升级”的方式,不断变强。
这个阶段的核心技能叫:强化学习(RL) ——
翻译成人话就是:
> “你干得好,系统给你点赞+奖励;你干得烂,系统直接给你一个大嘴巴子(不给分)。”
久而久之,AI就学会了:啥事能干,啥事不能干,啥操作最骚最高效!
第二幕:GLM-4.5 的“三项特训”——从学霸到“全能打工人”
GLM-4.5 不满足于只会答题,它要当一个能写代码、能搜资料、能用工具的“超级打工人”!
所以它在训练时,融合了两位“前辈”的绝技:
- GLM-4-0414 的通用能力 → 相当于“通识教育毕业”,啥都懂点
- GLM-Z1 的推理能力 → 相当于“奥数冠军”,逻辑链拉满
然后,它还加了三项“地狱特训”:
1. 代理编码 → 能自己写代码、修Bug,像程序员996
2. 深度搜索 → 不是百度一下就完事,而是“全网扒资料+交叉验证”,像福尔摩斯破案
3. 通用工具使用 → 会调API、查数据库、用计算器,不再是“只会嘴炮”的AI
> ✅ 总结:它不再是个“答题机器”,而是个能动手、能思考、能联网、能交付成果的AI员工!
第三幕:训练分两步——先“上课”,再“打怪”
训练不是一上来就让AI自由发挥,那叫“放养”,结果就是AI开始胡言乱语:“太阳是方的,因为昨天我梦见了。”
所以训练分两步走:
第一步:监督微调(SFT)——先当“好学生”
AI先被送去“补习班”,老师给它看一堆精心挑选的推理题和人造的代理任务场景(比如:“请帮我订一张从北京到火星的机票”),然后告诉它:
> “标准答案长这样,照着抄,不准发挥!”
这一步是为了让AI先学会“基本操作”,别一上来就跑偏。
第二步:强化学习(RL)——开启“打怪升级”模式
现在,AI毕业了,进入“开放世界”——
没有标准答案,只有任务目标。
它每做一个决定,系统就打分:
- 找到正确信息?+10分!
- 写的代码跑出bug?-5分!
- 调用工具失败?直接红牌罚下!
通过这种“打怪+得分”的方式,AI一步步进化成“策略大师”。
第四幕:推理训练——在64K上下文中“马拉松式思考”
GLM-4.5 的脑子特别大,能记住整整64K个字的内容(相当于一篇超长作文从头看到尾还不忘)。
我们在这么长的上下文中,搞了一次单阶段强化学习,
而且还用了“难度渐进课程表”——
就像你学游泳:
- 第一周:抱着浮板扑腾
- 第二周:脱板游三米
- 第三周:横渡泳池
AI也是:
先做简单推理题 → 再挑战复杂逻辑 → 最后搞定“STEM地狱题”(数学、物理、编程混合大Boss)
我们还加了两个“防翻车技术”:
1. 动态采样温度 →
简单说就是:AI在探索时,有时要“大胆创新”,有时要“稳扎稳打”。
系统会自动调节它的“胆子大小”:
- 难题面前,让它冷静点,别瞎猜
- 简单题时,鼓励它多试试新招
2. 自适应裁剪 →
防止AI在更新策略时“一步踏错,全盘皆输”。
就像游戏里升级技能,不能一下子把所有属性点全加到“力量”上,否则变脆皮战士。
这个技术让它“稳步升级”,不冒进。
️ 第五幕:代理任务训练——AI的“真实世界实习”
为了让AI不只是“理论派”,我们给它安排了两份“实习工作”:
实习1:基于搜索的问答(Search-based QA)
任务:你不能瞎编答案,必须上网搜、查资料、交叉验证,然后给出靠谱回复。
我们是怎么训练它的?
- 用“人在环”的方式:人类先从网页里提取关键信息
- 再故意加点“混淆内容”(比如放个假新闻)
- 让AI学会分辨真假,像“辟谣小能手”
> 举个栗子:
> 问:“喝可乐能治新冠吗?”
> 普通AI:可能回答“可能有用”(因为它在训练数据里见过“可乐+健康”)
> GLM-4.5:直接上网搜,查权威来源,回你一句:“别闹,这是谣言。”
实习2:软件工程任务(SWE)
AI要完成真实的编程任务,比如:
- 修一个GitHub上的Bug
- 写个能跑通的API接口
- 自动写测试用例
关键是什么?执行反馈!
代码写完不能光看“语法对不对”,还得跑起来看结果:
- 跑通了?+分!
- 崩了?扣分!
- 内存泄漏?直接挂科!
这样训练出来的AI,不是“代码生成器”,而是真·程序员。
第六幕:技能迁移 + 专家蒸馏——把“特长生”变“全能王”
虽然训练只针对有限的几个任务(比如搜索和编程),
但AI很聪明,它学会了“举一反三”!
> 比如它学会了“调用搜索引擎”,
> 很快就举一反三:
> “那我是不是也能调天气API?查地图?订外卖?”
这种能力叫技能迁移—— 学了个技能,顺手把隔壁技能也学会了。
最后,我们还搞了个“专家蒸馏”——
把在强化学习中变得超强的“专家版AI”的知识, “压缩”进 GLM-4.5 的主模型里。
就像:
> 把一个“奥数冠军+编程大神+搜索达人”的大脑精华,
> 提炼成一本《超级学习笔记》,
> 然后塞回普通学霸脑子里。
极客辣评
好家伙!这事儿简直离谱他妈给离谱开门——离谱到家了!
上周还在吹牛说那个叫‘Grok4’的AI是‘宇宙超级无敌大脑’(AGI),结果没过几天,一个免费送的‘小钢炮’模型,用你家电脑CPU都能跑,直接把它干趴下了!
更绝的是,这小钢炮还敢碰瓷最新款‘Qwen3’,直接把‘AI圈鄙视链’给掀桌子了!(打破迷恩?不,是打破‘你不行我不行大家都不行’的潜规则!)
——等等!还有更炸裂的更新!
我拿它做了个‘AI七项全能考试’(七边形基准测试),一开始以为它只是个‘抄作业小能手’,水平跟隔壁班学霸‘克劳德3.7’差不多。
结果仔细一看——我人傻了!
它连‘旋转的球撞墙会不会弹回来’这种物理题都算得贼准,甚至把球上的文字当贴纸一样跟着转!
活久见!以前哪个AI干过这种事?这哪是考试啊,这分明是开挂作弊还让老师拍手叫好!
通过openrouter上的模型进行测试,到目前为止,它看起来相当不错。
我唯一的抱怨是:推理感觉相当冗长
openrouter上的当前提供商(Z.ai)相对昂贵:两者结合起来,使这相当昂贵的大小,现在,特别是当比较qwen 3 - 235 b。
中国模型四杰:DeepSeek vs Qwen vs Kimi vs GLM
GLM一直是最好的小型/紧凑编码模型之一
GLM-4在C++方面并不擅长,但我喜欢它的地方是我可以用它来编码和创作