国产大模型智谱GLM-5强化学习架构解析

GLM-5通过DSA稀疏注意力、异步RL框架SLIME、保留思考机制及跨阶段蒸馏，打造能独立完成软件工程任务的智能体，实现从训练到部署的全链路优化。

以前的大模型就像是那种只会背课文的学霸，你给一段文字，它给你预测下一个词是啥，这种玩法叫做"文本进文本出"，简单直接但没啥想象力。现在的风向完全变了，整个行业都在往 ARC 方向狂奔。ARC 这三个字母可不是随便取的，它代表着 Agentic（代理能力）、Reasoning（推理能力）、Coding（编程能力）。翻译成人话就是：现在的 AI 不光要会说话，还得会干活，会思考，会写代码，最好还能自己调试自己部署，人类彻底解放双手。

GLM-5 就是在这个大背景下诞生的狠角色。它的前辈 GLM-4.5 已经是个相当能打的模型了，用了 MOE（混合专家架构）加上 MLA（多潜在注意力机制），在同等参数规模下表现相当亮眼。但 GLM-5 显然不满足于当个好学生，它直接抛弃了 MLA，换上了从 DeepSeek-V3.2 那里学来的 DSA（深度稀疏注意力），还在训练流程里塞进去一堆让人眼花缭乱的强化学习黑科技。今天的任务就是把这些技术细节掰开了揉碎了，用大家都能听懂的大白话讲清楚，保证让你听完之后觉得自己也能去智谱 AI 投简历了。

训练 pipeline 的四部曲：从文盲到全栈工程师的养成计划

训练一个大模型就像是培养一个超级天才儿童，得按部就班地来，不能拔苗助长。GLM-5 的训练流程分成四个阶段，每个阶段都有明确的任务目标，环环相扣，缺一不可。

第一个阶段叫预训练（Pre-Training），这个阶段就像是让 AI 读遍天下所有的书。训练数据是海量的无标注文本，从维基百科到 Reddit 帖子，从学术论文到网络小说，只要是文字就往里塞。AI 在这个阶段学会的是语言的基本规律，比如"苹果"后面经常跟着"好吃"，"函数"后面经常跟着"定义"。这个阶段的核心任务是"下一个词预测"，看着简单，实则是整个语言能力的基础。没有这个阶段，AI 连话都说不利索，更别说写代码了。

第二个阶段叫中训练（Mid-Training），这个阶段开始上强度了。数据质量明显提升，不再是啥都往嘴里塞，而是精心挑选过的高质量语料。更重要的是，这个阶段开始混入 SFT（监督微调）风格的指令数据。啥意思呢？就是让 AI 开始接触"人类说一句话，AI 需要怎么回应"这种成对的训练样本。比如人类问"今天天气怎么样"，AI 要学会回答"根据最新气象数据，今天晴朗，气温 25 度"而不是胡言乱语。这个阶段相当于让 AI 从纯理论学习者变成能跟人正常交流的对话者。

第三个阶段是监督微调（SFT），这是目前所有大模型训练 pipeline 里的标配环节。在这个阶段，AI 会接触到大量人工标注的指令-回复对。这些标注可都是真金白银砸出来的，雇佣一大群标注员，让专业人士写下高质量的回复示例，AI 通过模仿学习掌握如何生成有用、格式规范的回答。SFT 的质量很大程度上取决于数据集的质量，而数据集的质量这几年一直在飞速提升。为啥？因为更大的模型可以生成高质量的合成指令数据，用来训练更小的模型，形成了一种"大带小"的良性循环。现在市面上那些好用的开源模型，背后往往都有 GPT-4 或者 Claude 生成的合成数据在撑腰。

前三个阶段虽然重要，但说实话，各家大厂的玩法都差不多，拉不开太大差距。

真正让 GLM-5 脱颖而出的是第四个阶段：后训练强化学习（Post-Training RL）。这个阶段的目标很明确：让模型掌握代理能力（Agentic Capabilities），学会使用工具，学会在复杂环境中自主决策，学会像真正的软件工程师一样规划、实现、迭代代码。

GLM-5 的论文里有一句话特别有意思："在氛围编程（Vibe Coding）里，人类提示 AI 写代码；在代理工程（Agentic Engineering）里，AI 代理自己写代码。"这句话道破了天机：GLM-5 就是奔着让 AI 完全自主干活的目标去的。

稀疏注意力不是偷懒，是聪明地省电

聊完了训练流程，咱们得深入看看 GLM-5 在架构层面做了啥创新。最重磅的改动就是把原来的 MLA（多潜在注意力）换成了 DSA（深度稀疏注意力）。这个 DSA 可不是智谱 AI 自己闭门造车搞出来的，而是从 DeepSeek-V3.2 那里借鉴来的先进技术。

说到DSA（DeepSeek Sparse Attention），很多人第一反应是：“哦，又是为了省算力吧？”没错，但省得很有技术含量。

传统Transformer用的是全注意力机制——每个词都要和其他所有词“对眼神”，计算量爆炸。比如一句话有1000个词，那就要算100万次“谁跟谁有关”。但现实是，很多词根本八竿子打不着。比如“我昨天在超市买了苹果和香蕉”，“昨天”其实只关心“买”和“超市”，不用管“香蕉”长啥样。

稀疏注意力的思路特别简单：凭啥每个词都要看所有其他词？人脑读文章的时候也不会每个字都仔细琢磨，而是自动抓住关键词，跳过无关信息。DSA 就是模仿这种人类直觉，让 AI 学会"抓重点"。

DSA具体实现上用一个叫Lightning Indexer（闪电索引器）的组件，给每个词快速找出最相关的K个“搭子”，其他一律忽略。对每个词只挑选最相关的 Top K 个词进行注意力计算，其他词直接无视。这样计算量从O(n²)降到接近O(n)，速度飞起，效果却几乎不掉。长文本处理时性能提升巨大，而模型效果几乎不受影响。

这招其实最早出现在DeepSeek-V3.2里，GLM-5拿来优化自己的长上下文处理能力。为什么长上下文重要？因为软件工程任务动不动就几千行代码、几十轮对话、上百个文件引用。如果模型记不住上下文，写到一半就忘自己在干啥，那还怎么修Bug？

DSA让GLM-5能在超长输入里精准聚焦关键信息，比如在一堆日志里锁定报错行，在冗长的PR描述里提取用户真实需求。这就像你考试时不用通读整本教材，只翻重点章节就能答题——不是偷懒，是高效。而且论文强调，这种稀疏化是“token-level（词元级）”的，意味着每个词都能动态决定自己要看谁，灵活性拉满。所以别小看“稀疏”俩字，它可是GLM-5能扛住复杂任务的第一道护城河。

“保留思考” vs “交错思考”：AI写代码时到底在想啥？

接下来要聊的这个技术点特别有意思，叫做"交错思考"（Interleaved Thinking）和"保留思考"（Preserved Thinking）。这俩概念听起来像是哲学命题，实际上是大模型处理工具调用时的两种不同策略，直接关系到 AI 代理的工作效率和推理质量。

当你让AI写代码，它脑子里其实在“自言自语”——生成一些你看不见的“思考token”，用来理清逻辑。GLM-5在这块玩出了新花样，提出两种模式：Interleaved Thinking（交错思考）和Preserved Thinking（保留思考）。

先说说啥叫"交错思考"。想象一个场景：用户让 AI 代理完成一个复杂任务，比如"帮我查一下过去三个月销售额最高的产品，然后生成一份分析报告"。这个任务需要多个步骤：先调用数据库查询工具获取销售数据，再调用数据分析工具做统计，最后调用文档生成工具写报告。交错思考的策略是让 AI 一步一步来：先思考"我需要查销售数据"，然后调用数据库工具；拿到结果后，再思考"现在我要分析数据"，调用分析工具；拿到分析结果后，再思考"现在该写报告了"，调用文档工具。每一步都有明确的推理过程夹在工具调用之间，就像是人类干活时边做边想，步步为营。

这种策略的好处是推理质量高，因为每一步都有充分的思考时间，能根据上一步的结果调整下一步的策略。坏处也很明显：慢。每一步都要等工具返回结果才能继续，如果工具调用涉及网络请求或者复杂计算，AI 就得干等着，GPU 利用率低得可怜。

GLM-5 搞出了一个两全其美的方案："保留思考"（Preserved Thinking）。这个策略在批量调用工具的同时，保留了中间的推理过程。具体来说，AI 在生成工具调用序列时，会在每个工具调用之间插入思考 token，记录下"我为什么要调这个工具""我期望得到什么结果"。这些思考 token 不会发给用户看，是 AI 的"脑内独白"，但会参与到后续的最终答案生成中。

保留思考：它虽然也批量发工具请求，但在发出前就把每一步的推理token“存档”了。比如先生成“Reasoning 1 → Tool call 1 → Reasoning 2 → Tool call 2”，哪怕工具2失败了，它还能回溯到Reasoning 2重新规划。这就像你写作文先列提纲，哪怕中间卡壳，也能顺着大纲往下写。论文说这是“速度与质量的最佳平衡”——既享受批量调用的效率，又保留逐步推理的鲁棒性。对软件工程任务尤其重要，毕竟修Bug时经常遇到“这个库版本不对”、“那个配置漏了”，得随时调整策略。

这样一来，GLM-5 既享受到了批量工具调用的速度优势（工具并行执行，不用串行等待），又保持了交错思考的推理质量（每个决策点都有充分的思考过程）。论文里的对比特别直观：不保留思考的批量调用虽然快，但容易漏掉关键细节；纯交错思考虽然准，但慢得让人着急；保留思考模式在速度和准确率之间找到了最佳平衡点，是工程实践中的最优解。

异步强化学习：让GPU永不摸鱼的疯狂流水线

如果说前三个阶段是在教室里学习理论知识，那么 Agentic RL（代理强化学习）阶段就是把 AI 扔到真实战场上摸爬滚打。这个阶段的训练目标特别明确：让 AI 学会处理长周期交互、多步工具调用、环境反馈、错误恢复、动态规划等复杂能力。这些能力不是靠看数据就能学会的，必须让 AI 在实际操作中试错、总结经验、优化策略。
GLM-5 的 Agentic RL 训练分成多个阶段，其中基础阶段用的是 GRPO（Group Relative Policy Optimization，群体相对策略优化），这是目前强化学习领域的先进算法。但 GLM-5 的真正创新不在于用了 GRPO，而在于 GRPO 之后的那一套异步 RL 基础设施。

传统强化学习有个致命痛点：GPU太闲了。想象一下，模型接到任务“重构这个React组件”，它得先读代码、再调ESLint检查、再跑测试、最后生成新代码。整个过程可能花10分钟，但GPU只在生成文本的那几秒工作，其余时间都在等外部工具响应——就像厨师做好菜后，站在厨房干等外卖小哥来取餐。GLM-5团队受不了这种浪费，于是搞了个叫SLIME的异步RL框架。

核心思想就一句：别等，接着干！

SLIME的架构像个小工厂：
有个中央协调器（Central Coordinator）负责派活，一堆微服务（Microservices）各司其职——有的专管终端命令，有的负责搜索，有的模拟文件系统。
当模型需要调工具时，任务通过HTTP发给推理路由器（Inference Router），生成实际执行轨迹（rollout）。
最关键的是TITO网关（Token-In-Token-Out Gateway）：它直接捕获模型生成的原始token ID和对应的log概率，原封不动传给训练管道。

这意味着GPU永远有活干——一批任务在跑工具调用时，另一批已经在更新模型参数了。

论文特别强调：“RL训练的瓶颈是最慢的那个样本，不是平均速度。” SLIME通过异步调度，把“最慢样本”的等待时间摊薄到整个系统，GPU利用率直接拉满。这招简直是算力界的“时间管理大师”，让昂贵的A100集群24小时连轴转，一分一秒都不浪费。

Token-in-Token-Out：别让重新分词毁了你的强化学习

SLIME 架构里有个特别有意思的技术细节，叫做 TITO（Token-In-Token-Out，token 进 token 出）。乍一听这名字像是废话，"token 进 token 出"不是理所当然的吗？但实际上，大多数 RL 系统用的是 Text-In-Text-Out（文本进文本出），这里面的差别可大了去了。

典型流程是：rollout引擎生成字符串“The answer is 42.”，传给训练器；训练器收到后，得先用tokenizer重新切分成tokens [1234, 5678, 9012]，再算梯度。
问题来了：不同tokenizer对空格、标点、特殊字符的处理可能有细微差异。比如原生成时用的是“42.”（带句号），但重新分词时可能切成[“42”, “.”]，导致动作（action）和奖励（reward）对不上——模型以为自己输出了“42.”，实际梯度却基于“42” + “.”计算。

这种错位在长序列里会累积成灾难，让RL训练白跑几百小时。

TITO直接绕过这个问题：rollout引擎生成token ID流的同时，TITO网关立刻捕获这些ID和对应的log概率，打包传给训练器。训练器收到的就是“原汁原味”的生成轨迹，无需任何重新分词。论文用加粗语气警告：“重新分词可能引入token边界、空白处理、截断或特殊token位置的微妙错配，进而破坏动作与奖励/优势之间的步骤对齐。” 这就像你寄快递，与其让收件人自己拆包验货（可能弄丢零件），不如直接把打包好的箱子原样送达。

对GLM-5这种依赖精确token-level反馈的RL系统来说，TITO不是优化，是保命符。它确保每一滴算力都花在刀刃上，而不是浪费在“我和我自己对不上”的诡异bug里。

策略蒸馏：把大模型的智慧压缩进小身体

花了海量算力做完 RL 训练之后，GLM-5 团队面临一个现实问题：RL 训练出来的模型虽然能力强，但体积大、推理慢、成本高，没法直接上线给普通用户使用。这时候就需要用到"策略蒸馏"（Policy Distillation）技术，把大模型的能力"压缩"进更小更快的模型里。

GLM-5 用的是"On-Policy Cross-Stage Distillation"（同策略跨阶段蒸馏），这个名字听起来复杂，原理其实挺简单。论文里提到，在多阶段 RL pipeline 里，按顺序优化不同目标可能会导致之前学到的能力逐渐退化。为了解决这个问题，他们在最后阶段做同策略蒸馏，让一个小模型（学生）模仿大模型（老师）的行为。

具体流程是这样的：RL 训练好的大模型（老师）在多样化任务上生成响应；蒸馏出来的小模型（学生）通过监督学习模仿这些响应；学生模型学到的是老师经过 RL 优化后的 refined behaviors，而不是从头开始经历昂贵的 RL 训练。这样一来，小模型就能获得接近大模型的代理能力，同时保持轻量级和高速度，适合实时生产环境部署。

这种蒸馏策略特别聪明的地方在于"跨阶段"（Cross-Stage）。学生模型不仅模仿老师最终的输出，还学习老师在中间阶段的思考过程、工具调用策略、错误恢复方式等。这样蒸馏出来的模型不只是"知其然"，还能"知其所以然"，在面对未见过的任务时表现更加稳健。

其他隐藏彩蛋：量化、奖励、人机协作一个不少

除了上面提到的核心创新，GLM-5 的论文里还埋了不少其他技术细节，虽然着墨不多，但每一个都是工程实践中的关键优化。

首先是 INT4 Quantization-Aware Training（4 位整数量化感知训练）。量化是把模型参数从高精度浮点数转成低精度整数，以减少存储和计算开销。但直接量化已经训练好的模型通常会导致精度损失，量化感知训练则是在训练过程中就模拟量化效果，让模型学会适应低精度表示。GLM-5 用 INT4 量化，意味着模型可以在更少的显存里塞下更多的参数，或者在同等显存里支持更长的上下文。

其次是 GRPO with IcePop。IcePop 是智谱 AI 自研的 RL 训练框架或者优化技巧，论文里没有详细展开，但从名字看应该跟 GRPO 算法的实现细节有关，可能是某种改进的重要性采样策略或者优势估计方法。

还有 General RL（通用强化学习）里的 Human-in-the-loop（人类在环）风格对齐和 Hybrid reward system（混合奖励系统）。人类在环意味着 RL 训练过程中会有人类标注员参与，对模型的输出进行评价和反馈，确保模型行为符合人类价值观。混合奖励系统则是结合了多种奖励信号，比如结果正确性、格式规范性、人类偏好等，让模型在多个维度上同时优化。

这些技术细节虽然不像 DSA 或者 SLIME 那样有完整的架构图，但它们是 GLM-5 能够从实验室走向生产环境的重要保障。没有量化训练，模型部署成本会高到无法接受；没有人类在环对齐，模型可能会学到一些奇怪的行为模式；没有混合奖励系统，模型可能会过度优化某个单一指标而忽视整体质量。

结语：GLM-5 给行业带来的启示

当然，GLM-5 也不是没有挑战。

异步 RL 架构的复杂度很高，调试和维护成本不小；
DSA 虽然降低了计算复杂度，但在某些需要全局注意力的任务上可能会有信息损失；
策略蒸馏虽然能压缩模型，但蒸馏过程中的信息损失如何最小化仍是开放问题。

这些挑战也是整个行业的共同课题，期待智谱 AI 在后续版本中给出更好的解决方案。

国产大模型智谱GLM-5强化学习架构解析

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道