中国Z.ai发布排名第三的混合全能大模型GLM-4.5

z.ai 是一个多模态人工智能平台，由国内团队开发，主打文本、图像、音频等多模态内容的生成与理解能力。其定位类似于 OpenAI 的 ChatGPT 或 Anthropic 的 Claude，但更强调中文场景优化和多模态融合。

将GLM-4.5与OpenAI，Anthropic，Google DeepMind，xAI，Alibaba，Moonshot和DeepSeek的各种模型进行了12个基准测试，包括agentic（3），reasoning（7）和Coding（2）。总体而言，GLM-4.5排名第三，GLM-4.5 Air排名第六。

今天，我们介绍两款新的GLM系列成员：GLM-4.5和GLM-4.5-Air -我们最新的旗舰型号。GLM-4.5拥有3550亿个总参数和320亿个活动参数，GLM-4.5-Air拥有1060亿个总参数和120亿个活动参数。这两个模型都是为了将推理、编码和代理功能统一到一个模型中，以满足快速增长的代理应用程序越来越复杂的需求。

GLM-4.5和GLM-4.5-Air都是混合推理模型，提供了：用于复杂推理和工具使用的思维模式和用于即时响应的非思维模式。它们可以在Z.ai、Z.ai API上获得，开放权重可以在HuggingFace和ModelScope上获得。

特点：

在推理思维模式下，GLM-4.5和GLM-4.5-Air可以解决包括数学、科学和逻辑问题在内的复杂推理问题。
GLM-4.5擅长编码，包括从头开始构建编码项目和代理解决现有项目中的编码任务。它可以与现有的编码工具包无缝结合，如Claude Code，Roo Code和CodeGeex。
GLM-4.5展示了全面的全栈开发功能，可以无缝创建包含前端实现、数据库管理和后端部署的Web应用程序。GLM-4.5生成的前端界面展示了增强的功能和美学吸引力，展示了与人类设计偏好的强烈一致性。此外，GLM-4.5在生成演示材料（包括幻灯片和海报）方面表现出上级性能，当与用于信息检索和上下文增强的代理工具集成时，其能力显著增强。
GLM-4.5在前端和后端开发方面都很出色，这使得它在构建现代Web应用程序方面非常强大。为了更好地展示其功能，我们开发了一个受Claude Code启发的编码代理。通过提供一个基本的全栈网站样板，该代理使用户能够用几个字创建一个完整的网站。用户可以毫不费力地添加功能，并通过多轮对话完善他们的项目，使编码过程顺利和愉快。

模型资料

SOTA在各个类别中的表现，重点是代理能力
GLM4.5 Air是一个相对较小的型号，是第一个与前沿型号竞争的型号（基于共享基准）
他们已经发布了BF 16，FP 8和Base模型，允许其他团队/个人轻松地进行进一步的培训和发展他们的模型
他们使用MIT许可证
混合推理，允许在同一模型上进行指导和思考行为
对流行推理引擎（vLLM、SGLang）的零日支持
分享了如何在GitHub中进行推理和微调的详细说明
在他们的技术博客中分享培训方法

背景故事
大语言模型（LLM）就像是一个超级想当“全科学霸”的学生，不是那种只会做数学题的书呆子，也不是只会背古诗的文艺青年，而是想啥都会——上知天文，下知食堂阿姨今天有没有多给一勺肉的那种全能型选手。

为了成为“别人家的孩子”，它得练几大神功：

第一，啥问题来了都能扛，不怂，叫“一般问题解决”；
第二，不能死记硬背，得举一反三，比如老师考“鸡兔同笼”，你得能推出“猫狗同笼”咋算，这叫“泛化能力”；
第三，得有点常识，不能说“太阳从西边出来是因为它转累了”这种话，这叫“常识推理”；
第四，最牛的是——它还得自己卷自己，越学越聪明，这叫“自我改进”。

过去五年，OpenAI 家的“学霸兄弟连”开始发力：

GPT-3 先去“感知知识培训班”深造，学会了从海量网页、小说、论坛里“偷师”人类的知识，像个海绵宝宝，疯狂吸水。
然后它弟弟 o1 更狠，直接报了“强化学习特训营”，学完之后不再傻傻地张口就来，而是先“冷静三秒，思考人生”，再回答，结果编程、算数据、解奥数题全开挂，简直是年级第一的苗子！

但问题来了——这些模型虽然厉害，却像是“偏科天才”：

有的像“代码狂魔”，写程序比打游戏还快；
有的是“数学战神”，微积分当早餐吃；
还有的是“推理大帝”，逻辑链条拉得比操场跑道都长。

可你要让他们互相比试？那可就热闹了——代码高手算数可能还不如小学生，数学天才写代码可能满屏报错像在跳迪斯科。

所以，这时候咱们的“终极梦想选手”——GLM-4.5 闪亮登场！
它的目标就一个：我要当全科满分、体育不挂、颜值还高、连班主任都忍不住夸的宇宙级学霸！
它不满足于当“单项冠军”，而是要打通任督二脉，把编程、数学、推理、常识、自我进化全都融会贯通，目标是——在所有任务里都当MVP，让其他模型只能仰望它的背影，边看边喊：“这人怎么啥都会？！”

总之，GLM-4.5 的梦想，就是成为AI界的“六边形战士”，不靠外挂，全靠实力，卷死全场！

模型架构预训练

1. “MOE结构”：AI界的“分身术”大法！
GLM-4.5 没有走“肌肉猛男”路线（也就是一味堆参数、堆宽度），而是练了“MOE结构”全名叫 Mixture of Experts（专家混合），翻译成大白话就是：

> “我不一个人干所有活儿，我请一堆‘专家’，谁擅长啥，啥事就让谁干！”

比如你问：“1+1=？”——算术专家跳出来秒答；
你问：“写首情诗”——文艺专家上线，开始伤春悲秋。
这样，模型干活更高效，省电又省力，就像公司里分工明确，不内卷。

而且我们还加了“黑科技”：
- 无损平衡路由：保证每个专家都“有活干，不闲着”，不会出现“三个和尚没水喝”。
- S形门：就像给专家们装了个“智能门禁”，谁该出场、谁该闭嘴，系统自动判断，不抢戏。

2. 不做“胖模型”，要做“高个子”！

别的AI模型一看卷不过，就拼命“横向发展”——变宽、变胖（增加隐藏维度和专家数量），看起来参数贼多，像只充气的河豚。

但我们反其道而行之：我们不胖，但我们高！
我们减少了“宽度”（就是每层的神经元数量和专家数），但疯狂增加层数（也就是模型的“高度”）——就像从1米8的帅哥，长成了2米3的巨人！

为啥？因为我们发现：越高的模型，越会“动脑子”。
你让它解题，它不光是“背答案”，而是真能“推理”“思考”“举一反三”，像个会自己想问题的真学霸。

3. 注意力机制：让AI学会“眼观六路，耳听八方”

在模型的“大脑”里，有个叫自我注意力的部分，相当于它的“注意力雷达”。

我们用了两个神技：
- 分组查询注意力：不是让整个大脑一起盯着一句话看，而是分成几个小组，各盯各的关键词，效率翻倍，不累。
- 部分Rope：这是个“位置密码”，让AI知道“谁在前，谁在后”，比如“我打你”和“你打我”顺序一换，意思天差地别，靠它来分辨。

更离谱的是——我们用了96个注意力头！
啥叫“头”？你可以理解成“眼睛”。
普通模型可能就20~30只“眼睛”，我们直接装了96只，像个章鱼精，看得那叫一个细！

按理说，眼睛越多，学习应该越轻松，训练损失应该越小。
但奇怪的是——训练时没啥提升，像是白装了。
可一到考试（推理测试），比如MMLU（通识考试）、BBH（烧脑逻辑题），它居然秒杀全场！

结论：这模型不是“考试型选手”，是“实战型战神”——学得不一定快，但一出手就知有没有！

4. 优化器：Muon——AI界的“红牛+咖啡+脑力充电宝”

训练模型就像让AI天天上晚自习，得有个好“班主任”督促它学习。
我们没用普通的“老师”，而是请了Muon优化器——这玩意儿就像给AI灌了红牛加咖啡，还能自动调学习节奏。

效果是：
- 学得更快（收敛加速）
- 能一口气吃下更多数据（支持更大批量）
- 还不容易“学崩溃”（稳定性强）

5. QK-Norm：给注意力“降火”

注意力机制有时候太激动，Q和K（查询和键）一碰就“火花四溅”，导致训练不稳定。
所以我们加了个“冷静器”——QK-Norm，给它们的情绪降降温，让注意力逻辑更稳，不抽风。

6. MTP层：让AI学会“预判你的预判”

最后，我们给GLM-4.5和它的轻量版GLM-4.5-Air，加了个“超前预测外挂”——MTP（多令牌预测）层。

这玩意儿有多牛？
普通AI是“你说一句，我回一句”，像打乒乓球。
它呢？是“你刚张嘴，我就猜到你下三句要说什么”，直接一口气把答案写好，等你问完，它“唰”地甩出来。

这叫推测解码——说白了，就是AI学会了“抢答”，还答得全对！

总结一下：GLM-4.5 是个啥？

它不是靠蛮力堆参数的“卷王”，
而是靠结构精巧、脑子够深、眼睛够多、反应够快的“智慧型全能AI”！

用“专家分身术”干活不累
长得高（层数多），推理强
96只“眼睛”盯着你，细节全抓
Muon优化器带飞训练
还能预判你的问题，抢答王中王！

用强化学习slime训练AI
别慌，不是真的黏糊糊绿胶水，而是个超酷的AI训练系统叫 slime（名字是“简洁高效强化学习”的缩写，但听着像《勇者斗恶龙》里的小怪），它专为像 GLM-4.5 这种“AI巨无霸”量身打造的强化学习（RL）神器！

什么是 slime？——不是怪物，是“AI私教天团”！

你以为强化学习（RL）就是让AI玩几把“贪吃蛇”就变聪明了？
错！
训练像 GLM-4.5 这种“通天学霸”，得让它不断试错、打怪、拿经验、升级装备，像打RPG游戏一样。

但问题来了：
- 打怪太慢 → 数据不够
- 怪刷新太慢 → GPU干坐着，电费白烧
- AI一边想问题一边等数据 → 气到死机

所以，智障……啊不是，智者出手了！
我们设计并开源了一个叫 slime 的强化学习系统——
它不是史莱姆，它是史·莱·姆：Scalable Learning Infrastructure for Models（模型可扩展学习基础设施）——
名字听着像魔法药水，其实是AI界的健身房+教练+营养师+陪练机器人四合一！

slime 的三大“外挂技能”：

1. 灵活双模式训练：能合体，也能分身！

slime 最牛的地方是——它有两种“形态”：

- 合体模式（同步训练）：
就像全班同学一起上晚自习，老师（训练）和学生（数据生成）在同一间教室，面对面讲题。
适合传统任务，比如让AI学推理、背题型。

- 分身模式（异步训练）：
更猛！老师在机房狂训模型，学生在外“打副本”收集经验，打完再把战利品（数据）快递回来。
这样，老师不用等学生，学生也不用等老师，两边同时开工，效率拉满！

> 举个栗子：
> 你想让AI当“虚拟助理”，它得上网查资料、订机票、写邮件……这些操作慢得像树懒洗澡。
> 如果等它慢慢操作完再训练，GPU都快长蘑菇了。
> 但用 slime 的“分身模式”——让它一边慢慢操作，我们一边用已有的数据先训练，两边不打架，效率起飞！

2. 彻底拆解：让“打怪”和“升级”各干各的！

以前的强化学习系统，就像一个人既要打怪，又要升级，结果怪还没打死，自己饿死了。

slime 说：不行！必须分工！

于是它把系统拆成两块：

Rollout 引擎（打怪小队）：专门负责让AI在“环境”里试错、探索、收集数据，比如让它模拟订100次机票，看看哪次最省钱。
Training 引擎（升级中心）：专门负责用这些数据训练模型，调参数，让AI越来越聪明。

这两队人马在不同的机器上跑，互不干扰，就像：
- 你在外面跑美团送外卖（打怪）
- 我在教室里刷题背公式（升级）
咱俩不抢CPU，不抢GPU，还能同时进步！

> ✅ 效果：再也不怕“打怪太慢拖累训练”，GPU 24小时满负荷运转，电费花得值！

3. 混合精度加速：用“低配画质”刷副本，省电又提速！

打怪（数据生成）其实不需要“4K高清画质”，用低一点的精度（比如 FP8）完全够用，就像你玩《原神》调成“省电模式”也能通关。

slime 就很聪明：
- 用 FP8（超低精度） 快速生成数据 → 打怪快如闪电
- 但训练模型时，用 BF16（高精度） → 保证学习稳如老狗

> 好处：
> 数据生成速度翻倍甚至三倍，但模型质量一点不降，
> 相当于你用“极速模式”刷副本，BOSS掉的装备还是金色传说！

基于强化学习的后训练

第一幕：后期培训——AI的“高考后特训营”

LLM（大语言模型）光靠“预训练”（相当于背完高中三年课本）是不够的。
它还得进入后期培训阶段，通过“自我打怪、自我升级”的方式，不断变强。

这个阶段的核心技能叫：强化学习（RL） ——
翻译成人话就是：
> “你干得好，系统给你点赞+奖励；你干得烂，系统直接给你一个大嘴巴子（不给分）。”

久而久之，AI就学会了：啥事能干，啥事不能干，啥操作最骚最高效！

第二幕：GLM-4.5 的“三项特训”——从学霸到“全能打工人”

GLM-4.5 不满足于只会答题，它要当一个能写代码、能搜资料、能用工具的“超级打工人”！

所以它在训练时，融合了两位“前辈”的绝技：

GLM-4-0414 的通用能力 → 相当于“通识教育毕业”，啥都懂点
GLM-Z1 的推理能力 → 相当于“奥数冠军”，逻辑链拉满

然后，它还加了三项“地狱特训”：

1. 代理编码 → 能自己写代码、修Bug，像程序员996
2. 深度搜索 → 不是百度一下就完事，而是“全网扒资料+交叉验证”，像福尔摩斯破案
3. 通用工具使用 → 会调API、查数据库、用计算器，不再是“只会嘴炮”的AI

> ✅ 总结：它不再是个“答题机器”，而是个能动手、能思考、能联网、能交付成果的AI员工！

第三幕：训练分两步——先“上课”，再“打怪”

训练不是一上来就让AI自由发挥，那叫“放养”，结果就是AI开始胡言乱语：“太阳是方的，因为昨天我梦见了。”

所以训练分两步走：

第一步：监督微调（SFT）——先当“好学生”

AI先被送去“补习班”，老师给它看一堆精心挑选的推理题和人造的代理任务场景（比如：“请帮我订一张从北京到火星的机票”），然后告诉它：
> “标准答案长这样，照着抄，不准发挥！”

这一步是为了让AI先学会“基本操作”，别一上来就跑偏。

第二步：强化学习（RL）——开启“打怪升级”模式

现在，AI毕业了，进入“开放世界”——
没有标准答案，只有任务目标。
它每做一个决定，系统就打分：
- 找到正确信息？+10分！
- 写的代码跑出bug？-5分！
- 调用工具失败？直接红牌罚下！

通过这种“打怪+得分”的方式，AI一步步进化成“策略大师”。

第四幕：推理训练——在64K上下文中“马拉松式思考”

GLM-4.5 的脑子特别大，能记住整整64K个字的内容（相当于一篇超长作文从头看到尾还不忘）。

我们在这么长的上下文中，搞了一次单阶段强化学习，
而且还用了“难度渐进课程表”——
就像你学游泳：
- 第一周：抱着浮板扑腾
- 第二周：脱板游三米
- 第三周：横渡泳池

AI也是：
先做简单推理题 → 再挑战复杂逻辑 → 最后搞定“STEM地狱题”（数学、物理、编程混合大Boss）

我们还加了两个“防翻车技术”：

1. 动态采样温度 →
简单说就是：AI在探索时，有时要“大胆创新”，有时要“稳扎稳打”。
系统会自动调节它的“胆子大小”：
- 难题面前，让它冷静点，别瞎猜
- 简单题时，鼓励它多试试新招

2. 自适应裁剪 →
防止AI在更新策略时“一步踏错，全盘皆输”。
就像游戏里升级技能，不能一下子把所有属性点全加到“力量”上，否则变脆皮战士。
这个技术让它“稳步升级”，不冒进。

️ 第五幕：代理任务训练——AI的“真实世界实习”

为了让AI不只是“理论派”，我们给它安排了两份“实习工作”：

实习1：基于搜索的问答（Search-based QA）

任务：你不能瞎编答案，必须上网搜、查资料、交叉验证，然后给出靠谱回复。

我们是怎么训练它的？
- 用“人在环”的方式：人类先从网页里提取关键信息
- 再故意加点“混淆内容”（比如放个假新闻）
- 让AI学会分辨真假，像“辟谣小能手”

> 举个栗子：
> 问：“喝可乐能治新冠吗？”
> 普通AI：可能回答“可能有用”（因为它在训练数据里见过“可乐+健康”）
> GLM-4.5：直接上网搜，查权威来源，回你一句：“别闹，这是谣言。”

实习2：软件工程任务（SWE）

AI要完成真实的编程任务，比如：
- 修一个GitHub上的Bug
- 写个能跑通的API接口
- 自动写测试用例

关键是什么？执行反馈！
代码写完不能光看“语法对不对”，还得跑起来看结果：
- 跑通了？+分！
- 崩了？扣分！
- 内存泄漏？直接挂科！

这样训练出来的AI，不是“代码生成器”，而是真·程序员。

第六幕：技能迁移 + 专家蒸馏——把“特长生”变“全能王”

虽然训练只针对有限的几个任务（比如搜索和编程），
但AI很聪明，它学会了“举一反三”！

> 比如它学会了“调用搜索引擎”，
> 很快就举一反三：
> “那我是不是也能调天气API？查地图？订外卖？”

这种能力叫技能迁移—— 学了个技能，顺手把隔壁技能也学会了。

最后，我们还搞了个“专家蒸馏”——
把在强化学习中变得超强的“专家版AI”的知识， “压缩”进 GLM-4.5 的主模型里。

就像：
> 把一个“奥数冠军+编程大神+搜索达人”的大脑精华，
> 提炼成一本《超级学习笔记》，
> 然后塞回普通学霸脑子里。

极客辣评
好家伙！这事儿简直离谱他妈给离谱开门——离谱到家了！
上周还在吹牛说那个叫‘Grok4’的AI是‘宇宙超级无敌大脑’（AGI），结果没过几天，一个免费送的‘小钢炮’模型，用你家电脑CPU都能跑，直接把它干趴下了！
更绝的是，这小钢炮还敢碰瓷最新款‘Qwen3’，直接把‘AI圈鄙视链’给掀桌子了！（打破迷恩？不，是打破‘你不行我不行大家都不行’的潜规则！）

——等等！还有更炸裂的更新！
我拿它做了个‘AI七项全能考试’（七边形基准测试），一开始以为它只是个‘抄作业小能手’，水平跟隔壁班学霸‘克劳德3.7’差不多。
结果仔细一看——我人傻了！
它连‘旋转的球撞墙会不会弹回来’这种物理题都算得贼准，甚至把球上的文字当贴纸一样跟着转！
活久见！以前哪个AI干过这种事？这哪是考试啊，这分明是开挂作弊还让老师拍手叫好！

通过openrouter上的模型进行测试，到目前为止，它看起来相当不错。

我唯一的抱怨是：推理感觉相当冗长
openrouter上的当前提供商（Z.ai）相对昂贵：两者结合起来，使这相当昂贵的大小，现在，特别是当比较qwen 3 - 235 b。

中国模型四杰：DeepSeek vs Qwen vs Kimi vs GLM

GLM一直是最好的小型/紧凑编码模型之一

GLM-4在C++方面并不擅长，但我喜欢它的地方是我可以用它来编码和创作