以前的大模型就像是那种只会背课文的学霸,你给一段文字,它给你预测下一个词是啥,这种玩法叫做"文本进文本出",简单直接但没啥想象力。现在的风向完全变了,整个行业都在往 ARC 方向狂奔。ARC 这三个字母可不是随便取的,它代表着 Agentic(代理能力)、Reasoning(推理能力)、Coding(编程能力)。翻译成人话就是:现在的 AI 不光要会说话,还得会干活,会思考,会写代码,最好还能自己调试自己部署,人类彻底解放双手。
GLM-5 就是在这个大背景下诞生的狠角色。它的前辈 GLM-4.5 已经是个相当能打的模型了,用了 MOE(混合专家架构)加上 MLA(多潜在注意力机制),在同等参数规模下表现相当亮眼。但 GLM-5 显然不满足于当个好学生,它直接抛弃了 MLA,换上了从 DeepSeek-V3.2 那里学来的 DSA(深度稀疏注意力),还在训练流程里塞进去一堆让人眼花缭乱的强化学习黑科技。今天的任务就是把这些技术细节掰开了揉碎了,用大家都能听懂的大白话讲清楚,保证让你听完之后觉得自己也能去智谱 AI 投简历了。
训练 pipeline 的四部曲:从文盲到全栈工程师的养成计划
训练一个大模型就像是培养一个超级天才儿童,得按部就班地来,不能拔苗助长。GLM-5 的训练流程分成四个阶段,每个阶段都有明确的任务目标,环环相扣,缺一不可。
第一个阶段叫预训练(Pre-Training),这个阶段就像是让 AI 读遍天下所有的书。训练数据是海量的无标注文本,从维基百科到 Reddit 帖子,从学术论文到网络小说,只要是文字就往里塞。AI 在这个阶段学会的是语言的基本规律,比如"苹果"后面经常跟着"好吃","函数"后面经常跟着"定义"。这个阶段的核心任务是"下一个词预测",看着简单,实则是整个语言能力的基础。没有这个阶段,AI 连话都说不利索,更别说写代码了。
第二个阶段叫中训练(Mid-Training),这个阶段开始上强度了。数据质量明显提升,不再是啥都往嘴里塞,而是精心挑选过的高质量语料。更重要的是,这个阶段开始混入 SFT(监督微调)风格的指令数据。啥意思呢?就是让 AI 开始接触"人类说一句话,AI 需要怎么回应"这种成对的训练样本。比如人类问"今天天气怎么样",AI 要学会回答"根据最新气象数据,今天晴朗,气温 25 度"而不是胡言乱语。这个阶段相当于让 AI 从纯理论学习者变成能跟人正常交流的对话者。
第三个阶段是监督微调(SFT),这是目前所有大模型训练 pipeline 里的标配环节。在这个阶段,AI 会接触到大量人工标注的指令-回复对。这些标注可都是真金白银砸出来的,雇佣一大群标注员,让专业人士写下高质量的回复示例,AI 通过模仿学习掌握如何生成有用、格式规范的回答。SFT 的质量很大程度上取决于数据集的质量,而数据集的质量这几年一直在飞速提升。为啥?因为更大的模型可以生成高质量的合成指令数据,用来训练更小的模型,形成了一种"大带小"的良性循环。现在市面上那些好用的开源模型,背后往往都有 GPT-4 或者 Claude 生成的合成数据在撑腰。
前三个阶段虽然重要,但说实话,各家大厂的玩法都差不多,拉不开太大差距。
真正让 GLM-5 脱颖而出的是第四个阶段:后训练强化学习(Post-Training RL)。这个阶段的目标很明确:让模型掌握代理能力(Agentic Capabilities),学会使用工具,学会在复杂环境中自主决策,学会像真正的软件工程师一样规划、实现、迭代代码。
GLM-5 的论文里有一句话特别有意思:"在氛围编程(Vibe Coding)里,人类提示 AI 写代码;在代理工程(Agentic Engineering)里,AI 代理自己写代码。"这句话道破了天机:GLM-5 就是奔着让 AI 完全自主干活的目标去的。
稀疏注意力不是偷懒,是聪明地省电
聊完了训练流程,咱们得深入看看 GLM-5 在架构层面做了啥创新。最重磅的改动就是把原来的 MLA(多潜在注意力)换成了 DSA(深度稀疏注意力)。这个 DSA 可不是智谱 AI 自己闭门造车搞出来的,而是从 DeepSeek-V3.2 那里借鉴来的先进技术。
说到DSA(DeepSeek Sparse Attention),很多人第一反应是:“哦,又是为了省算力吧?”没错,但省得很有技术含量。
传统Transformer用的是全注意力机制——每个词都要和其他所有词“对眼神”,计算量爆炸。比如一句话有1000个词,那就要算100万次“谁跟谁有关”。但现实是,很多词根本八竿子打不着。比如“我昨天在超市买了苹果和香蕉”,“昨天”其实只关心“买”和“超市”,不用管“香蕉”长啥样。
稀疏注意力的思路特别简单:凭啥每个词都要看所有其他词?人脑读文章的时候也不会每个字都仔细琢磨,而是自动抓住关键词,跳过无关信息。DSA 就是模仿这种人类直觉,让 AI 学会"抓重点"。
DSA具体实现上用一个叫Lightning Indexer(闪电索引器)的组件,给每个词快速找出最相关的K个“搭子”,其他一律忽略。对每个词只挑选最相关的 Top K 个词进行注意力计算,其他词直接无视。这样计算量从O(n²)降到接近O(n),速度飞起,效果却几乎不掉。长文本处理时性能提升巨大,而模型效果几乎不受影响。
这招其实最早出现在DeepSeek-V3.2里,GLM-5拿来优化自己的长上下文处理能力。为什么长上下文重要?因为软件工程任务动不动就几千行代码、几十轮对话、上百个文件引用。如果模型记不住上下文,写到一半就忘自己在干啥,那还怎么修Bug?
DSA让GLM-5能在超长输入里精准聚焦关键信息,比如在一堆日志里锁定报错行,在冗长的PR描述里提取用户真实需求。这就像你考试时不用通读整本教材,只翻重点章节就能答题——不是偷懒,是高效。而且论文强调,这种稀疏化是“token-level(词元级)”的,意味着每个词都能动态决定自己要看谁,灵活性拉满。所以别小看“稀疏”俩字,它可是GLM-5能扛住复杂任务的第一道护城河。
“保留思考” vs “交错思考”:AI写代码时到底在想啥?
接下来要聊的这个技术点特别有意思,叫做"交错思考"(Interleaved Thinking)和"保留思考"(Preserved Thinking)。这俩概念听起来像是哲学命题,实际上是大模型处理工具调用时的两种不同策略,直接关系到 AI 代理的工作效率和推理质量。
当你让AI写代码,它脑子里其实在“自言自语”——生成一些你看不见的“思考token”,用来理清逻辑。GLM-5在这块玩出了新花样,提出两种模式:Interleaved Thinking(交错思考)和Preserved Thinking(保留思考)。
先说说啥叫"交错思考"。想象一个场景:用户让 AI 代理完成一个复杂任务,比如"帮我查一下过去三个月销售额最高的产品,然后生成一份分析报告"。这个任务需要多个步骤:先调用数据库查询工具获取销售数据,再调用数据分析工具做统计,最后调用文档生成工具写报告。交错思考的策略是让 AI 一步一步来:先思考"我需要查销售数据",然后调用数据库工具;拿到结果后,再思考"现在我要分析数据",调用分析工具;拿到分析结果后,再思考"现在该写报告了",调用文档工具。每一步都有明确的推理过程夹在工具调用之间,就像是人类干活时边做边想,步步为营。
这种策略的好处是推理质量高,因为每一步都有充分的思考时间,能根据上一步的结果调整下一步的策略。坏处也很明显:慢。每一步都要等工具返回结果才能继续,如果工具调用涉及网络请求或者复杂计算,AI 就得干等着,GPU 利用率低得可怜。
GLM-5 搞出了一个两全其美的方案:"保留思考"(Preserved Thinking)。这个策略在批量调用工具的同时,保留了中间的推理过程。具体来说,AI 在生成工具调用序列时,会在每个工具调用之间插入思考 token,记录下"我为什么要调这个工具""我期望得到什么结果"。这些思考 token 不会发给用户看,是 AI 的"脑内独白",但会参与到后续的最终答案生成中。
保留思考:它虽然也批量发工具请求,但在发出前就把每一步的推理token“存档”了。比如先生成“Reasoning 1 → Tool call 1 → Reasoning 2 → Tool call 2”,哪怕工具2失败了,它还能回溯到Reasoning 2重新规划。这就像你写作文先列提纲,哪怕中间卡壳,也能顺着大纲往下写。论文说这是“速度与质量的最佳平衡”——既享受批量调用的效率,又保留逐步推理的鲁棒性。对软件工程任务尤其重要,毕竟修Bug时经常遇到“这个库版本不对”、“那个配置漏了”,得随时调整策略。
这样一来,GLM-5 既享受到了批量工具调用的速度优势(工具并行执行,不用串行等待),又保持了交错思考的推理质量(每个决策点都有充分的思考过程)。论文里的对比特别直观:不保留思考的批量调用虽然快,但容易漏掉关键细节;纯交错思考虽然准,但慢得让人着急;保留思考模式在速度和准确率之间找到了最佳平衡点,是工程实践中的最优解。
异步强化学习:让GPU永不摸鱼的疯狂流水线
如果说前三个阶段是在教室里学习理论知识,那么 Agentic RL(代理强化学习)阶段就是把 AI 扔到真实战场上摸爬滚打。这个阶段的训练目标特别明确:让 AI 学会处理长周期交互、多步工具调用、环境反馈、错误恢复、动态规划等复杂能力。这些能力不是靠看数据就能学会的,必须让 AI 在实际操作中试错、总结经验、优化策略。
GLM-5 的 Agentic RL 训练分成多个阶段,其中基础阶段用的是 GRPO(Group Relative Policy Optimization,群体相对策略优化),这是目前强化学习领域的先进算法。但 GLM-5 的真正创新不在于用了 GRPO,而在于 GRPO 之后的那一套异步 RL 基础设施。
传统强化学习有个致命痛点:GPU太闲了。想象一下,模型接到任务“重构这个React组件”,它得先读代码、再调ESLint检查、再跑测试、最后生成新代码。整个过程可能花10分钟,但GPU只在生成文本的那几秒工作,其余时间都在等外部工具响应——就像厨师做好菜后,站在厨房干等外卖小哥来取餐。GLM-5团队受不了这种浪费,于是搞了个叫SLIME的异步RL框架。
核心思想就一句:别等,接着干!
SLIME的架构像个小工厂:
有个中央协调器(Central Coordinator)负责派活,一堆微服务(Microservices)各司其职——有的专管终端命令,有的负责搜索,有的模拟文件系统。
当模型需要调工具时,任务通过HTTP发给推理路由器(Inference Router),生成实际执行轨迹(rollout)。
最关键的是TITO网关(Token-In-Token-Out Gateway):它直接捕获模型生成的原始token ID和对应的log概率,原封不动传给训练管道。
这意味着GPU永远有活干——一批任务在跑工具调用时,另一批已经在更新模型参数了。
论文特别强调:“RL训练的瓶颈是最慢的那个样本,不是平均速度。” SLIME通过异步调度,把“最慢样本”的等待时间摊薄到整个系统,GPU利用率直接拉满。这招简直是算力界的“时间管理大师”,让昂贵的A100集群24小时连轴转,一分一秒都不浪费。
Token-in-Token-Out:别让重新分词毁了你的强化学习
SLIME 架构里有个特别有意思的技术细节,叫做 TITO(Token-In-Token-Out,token 进 token 出)。乍一听这名字像是废话,"token 进 token 出"不是理所当然的吗?但实际上,大多数 RL 系统用的是 Text-In-Text-Out(文本进文本出),这里面的差别可大了去了。
典型流程是:rollout引擎生成字符串“The answer is 42.”,传给训练器;训练器收到后,得先用tokenizer重新切分成tokens [1234, 5678, 9012],再算梯度。
问题来了:不同tokenizer对空格、标点、特殊字符的处理可能有细微差异。比如原生成时用的是“42.”(带句号),但重新分词时可能切成[“42”, “.”],导致动作(action)和奖励(reward)对不上——模型以为自己输出了“42.”,实际梯度却基于“42” + “.”计算。
这种错位在长序列里会累积成灾难,让RL训练白跑几百小时。
TITO直接绕过这个问题:rollout引擎生成token ID流的同时,TITO网关立刻捕获这些ID和对应的log概率,打包传给训练器。训练器收到的就是“原汁原味”的生成轨迹,无需任何重新分词。论文用加粗语气警告:“重新分词可能引入token边界、空白处理、截断或特殊token位置的微妙错配,进而破坏动作与奖励/优势之间的步骤对齐。” 这就像你寄快递,与其让收件人自己拆包验货(可能弄丢零件),不如直接把打包好的箱子原样送达。
对GLM-5这种依赖精确token-level反馈的RL系统来说,TITO不是优化,是保命符。它确保每一滴算力都花在刀刃上,而不是浪费在“我和我自己对不上”的诡异bug里。
策略蒸馏:把大模型的智慧压缩进小身体
花了海量算力做完 RL 训练之后,GLM-5 团队面临一个现实问题:RL 训练出来的模型虽然能力强,但体积大、推理慢、成本高,没法直接上线给普通用户使用。这时候就需要用到"策略蒸馏"(Policy Distillation)技术,把大模型的能力"压缩"进更小更快的模型里。
GLM-5 用的是"On-Policy Cross-Stage Distillation"(同策略跨阶段蒸馏),这个名字听起来复杂,原理其实挺简单。论文里提到,在多阶段 RL pipeline 里,按顺序优化不同目标可能会导致之前学到的能力逐渐退化。为了解决这个问题,他们在最后阶段做同策略蒸馏,让一个小模型(学生)模仿大模型(老师)的行为。
具体流程是这样的:RL 训练好的大模型(老师)在多样化任务上生成响应;蒸馏出来的小模型(学生)通过监督学习模仿这些响应;学生模型学到的是老师经过 RL 优化后的 refined behaviors,而不是从头开始经历昂贵的 RL 训练。这样一来,小模型就能获得接近大模型的代理能力,同时保持轻量级和高速度,适合实时生产环境部署。
这种蒸馏策略特别聪明的地方在于"跨阶段"(Cross-Stage)。学生模型不仅模仿老师最终的输出,还学习老师在中间阶段的思考过程、工具调用策略、错误恢复方式等。这样蒸馏出来的模型不只是"知其然",还能"知其所以然",在面对未见过的任务时表现更加稳健。
其他隐藏彩蛋:量化、奖励、人机协作一个不少
除了上面提到的核心创新,GLM-5 的论文里还埋了不少其他技术细节,虽然着墨不多,但每一个都是工程实践中的关键优化。
首先是 INT4 Quantization-Aware Training(4 位整数量化感知训练)。量化是把模型参数从高精度浮点数转成低精度整数,以减少存储和计算开销。但直接量化已经训练好的模型通常会导致精度损失,量化感知训练则是在训练过程中就模拟量化效果,让模型学会适应低精度表示。GLM-5 用 INT4 量化,意味着模型可以在更少的显存里塞下更多的参数,或者在同等显存里支持更长的上下文。
其次是 GRPO with IcePop。IcePop 是智谱 AI 自研的 RL 训练框架或者优化技巧,论文里没有详细展开,但从名字看应该跟 GRPO 算法的实现细节有关,可能是某种改进的重要性采样策略或者优势估计方法。
还有 General RL(通用强化学习)里的 Human-in-the-loop(人类在环)风格对齐和 Hybrid reward system(混合奖励系统)。人类在环意味着 RL 训练过程中会有人类标注员参与,对模型的输出进行评价和反馈,确保模型行为符合人类价值观。混合奖励系统则是结合了多种奖励信号,比如结果正确性、格式规范性、人类偏好等,让模型在多个维度上同时优化。
这些技术细节虽然不像 DSA 或者 SLIME 那样有完整的架构图,但它们是 GLM-5 能够从实验室走向生产环境的重要保障。没有量化训练,模型部署成本会高到无法接受;没有人类在环对齐,模型可能会学到一些奇怪的行为模式;没有混合奖励系统,模型可能会过度优化某个单一指标而忽视整体质量。
结语:GLM-5 给行业带来的启示
当然,GLM-5 也不是没有挑战。
异步 RL 架构的复杂度很高,调试和维护成本不小;
DSA 虽然降低了计算复杂度,但在某些需要全局 注意力 的任务上可能会有信息损失;
策略蒸馏虽然能压缩模型,但蒸馏过程中的信息损失如何最小化仍是开放问题。
这些挑战也是整个行业的共同课题,期待智谱 AI 在后续版本中给出更好的解决方案。