递归语言模型RLM主副分工：主模型调用Python；子模型管理上下文！

2026年开年，递归语言模型RLM通过让主模型调用Python和子模型管理上下文，解决超长上下文难题，虽需专项训练但潜力巨大。

一家名叫Prime Intellect的神秘AI实验室提出名为“递归语言模型”（Recursive Language Model，简称RLM）的新范式，正在用“模型自己管自己上下文”的方式，把当前所有超长上下文大模型打得满地找牙！

这玩意儿不是简单加个工具调用或者上下文压缩，而是让大模型真正拥有了“操作系统”般的自我管理能力！它不再把几十万甚至上百万token塞进大脑硬撑，而是像人一样，主动去调用Python脚本、启动子模型（sub-LLMs），把信息存在外部、把计算拆解分发，最终只保留最精华的结论。

这不仅是技术升级，这是一场从“笨重单体”到“分布式智能体”的革命！

RLM到底是个什么鬼？别再被“超长上下文”忽悠了！

现在所有家都在吹自己模型上下文能到100万、200万甚至500万token，但这背后是天价的计算成本和严重的“上下文腐烂”（Context Rot）问题？意思就是，上下文越长，模型表现反而越差！信息像一碗放馊了的粥，越搅越烂。

主流做法呢？要么靠文件系统+定期总结（比如Claude Code那种），要么搞所谓的“上下文折叠”（Context Folding），让模型在推理过程中不断自我总结，但总结就意味着信息丢失！

而RLM，从根上就拒绝了这种“总结即遗忘”的思路。它的核心思想超级简单又极其暴力：主模型根本不吃原始数据，而是通过一个持久化的Python REPL（读取-求值-打印循环）环境，让模型自己写代码去读、去筛、去处理外部数据，并且可以随时召唤“子模型分身”出来帮忙干活！原始数据可能是PDF、视频、超大数据库，主模型完全不用看，只看子模型返回的精炼结果。

这样主模型上下文永远清爽，又能处理无限大的输入，简直是“四两拨千斤”！

技术细节炸裂：RLM的五大核心设计，让模型自己当CEO！

RLM之所以强，全靠它那套精心设计的“操作系统”。

首先，它的主模型只能通过一个叫answer的Python变量来输出最终答案，这个变量是个字典，有content和ready两个键。模型可以在推理过程中无数次修改content，只有当它觉得自己答案完美无误了，才把ready设为True，系统才会提取答案。
这就逼着模型像人一样，先写个草稿，反复检查修改，直到满意为止！

其次，所有外部工具（比如网络搜索、文件读写）都只能由子模型来调用。
为什么？因为这些工具返回的数据量巨大，动辄几万甚至上百万token！如果主模型直接看，上下文立马爆炸。

RLM的设计非常聪明：让子模型干脏活累活，主模型只看汇报、总结、摘要。

第三，RLM内置了一个叫llm_batch的函数，可以并行启动多个子模型，处理多个子任务。想象一下，面对一个复杂的深度研究问题，主模型直接“分封诸侯”，让几个子模型同时去查不同方面的资料，效率提升不是一星半点！

第四，RLM的Python环境是沙盒化的，隔离运行，安全可控，而且任何pip包都能安装，模型还知道自己装了哪些包。

最后，也是最骚的操作：主模型和子模型之间，通过Python代码进行“编程式沟通”。

这已经不是简单的提示词工程了，这是在用代码搭建一个由AI组成的“集群思维”！

实验结果震撼：RLM在哪些地方吊打传统模型，又在哪里翻了车？

Prime Intellect团队用GPT-5-mini这个目前最好使的商业模型，在四个极具代表性的环境里做了残酷的AB测试。

结果让人又惊又喜！在DeepDive（深度研究任务）和Oolong（超长上下文信息提取）这两个“上下文杀手”场景里，RLM的优势简直碾压。尤其是在Oolong的真实数据集上，当上下文长度冲到150万字符（约30-40万token）时，普通LLM直接宕机，而RLM依然能稳定输出正确答案！

为什么？因为它压根没把那么长的文本塞进脑子，而是用代码切片，让子模型并行处理，最后汇总。

但在math-python（数学解题）这个环境里，RLM却栽了个大跟头，表现甚至不如普通LLM。分析发现，问题出在GPT-5-mini根本不会用这套新系统！它被复杂的RLM框架搞得晕头转向，思考效率极低。

这恰恰暴露了RLM当前最大的痛点：它太超前了，现有模型都没经过针对性训练，就像给一个只会用算盘的人一台超级计算机，他反而不会用了。这也引出了Prime Intellect的核心论点：RLM的真正威力，必须通过强化学习（RL）来训练才能完全释放！

各路神仙下场PK：开源模型在RLM架构下表现如何？

除了GPT-5-mini，Prime Intellect还拉来了智谱的GLM 4.6、GLM 4.5 Air，以及自家的INTELLECT-3来跑分。结果非常有趣！

GLM 4.6在DeepDive任务上，用了RLM后性能直接翻倍！但在被给予“多用子模型”的提示后，反而崩盘了，说明它对新范式的理解非常脆弱。
而自家的INTELLECT-3则展现了更强的适应性，在Oolong和verbatim-copy（逐字复制）任务上，只要给了环境提示（env_tips），就能立刻理解RLM的玩法，性能飙升。

这说明，未来谁能率先在RLM架构上进行SFT（监督微调）和RLHF（基于人类反馈的强化学习），谁就能在下一代AI竞赛中占据绝对先机。

RLM不是一个单纯的推理框架，它是一个全新的、需要从训练阶段就开始适配的“操作系统”。未来的AI模型，将不再是单打独斗的“学霸”，而是擅长调度资源、管理团队的“CEO”。

一文看懂RLM与传统长上下文注意力的区别

很多人会问，直接改进注意力机制（Attention）来支持更长上下文不就行了？

RLM和这有啥区别？答案是：二者解决的是同一个问题的两个不同层面。

改进注意力机制，比如用稀疏注意力、线性注意力等，是从模型“内部”入手，让它在预训练阶段就学会如何更高效地“记住”过去。这是一种“被动”的、基于统计的学习。

而RLM则完全不同，它是“主动”的、基于任务结果的学习。
RLM根本不关心内部怎么记，它只关心“怎么做才能完成这个任务”。
它通过强化学习，学会在任务过程中动态决定：哪些信息要看，哪些信息要存，哪些活要外包给子模型。

这就像一个是苦练记忆力的学者，另一个是擅长使用笔记、搜索引擎和助理的实干家。

Prime Intellect认为，二者并非对立，而是互补。高效的注意力机制可以延缓“上下文腐烂”，而RLM则能主动管理上下文，将模型能力的边界推得更远。真正的长程智能体，需要这两者的结合！

面向未来的RLM：从递归深度到多模态的无限可能

目前的RLM实现，递归深度固定为1，也就是说子模型不能再召唤自己的子模型。但这只是开始！

Prime Intellect在文章末尾勾勒了RLM的宏伟蓝图：未来将支持任意深度的递归，让智能体可以构建多层次的推理树；将允许用户轻松定义自定义函数，让RLM的能力可以像乐高一样拼装；将优化对多模态数据（图像、音频、视频）的支持，让RLM不仅能处理文本，还能理解和操作整个数字世界。

最关键的是，他们将开始用小模型进行RLM的专项训练，收集数据、优化性能，最终打造出真正“原生”于RLM架构的AI。

届时，我们将看到一个能自主管理复杂项目、持续数周甚至数月进行推理、并能从失败中学习的超级智能体。这不再是科幻，这就是2026年正在发生的现实！

总结与展望：RLM不是终点，而是AGI操作系统时代的开端

总而言之，RLM代表了一种范式转移。它不再把大语言模型看作一个黑盒的文本生成器，而是将其视为一个可以编程、可以扩展、可以自我管理的智能操作系统。它通过将控制权交还给模型自身，解决了超长上下文带来的成本与性能困境。

虽然当前由于缺乏针对性训练，RLM在某些任务上表现不佳，但这恰恰指明了未来的方向。

随着RLM训练基础设施的完善和专用模型的出现，我们有理由相信，这种“模型管理模型”的递归架构，将成为构建真正长期、复杂、可靠AI智能体的基石。对于开发者而言，现在就是拥抱RLM、学习其设计哲学的最佳时机。对于所有关注AI前沿的人来说，RLM的出现，意味着我们离那个能像人类一样使用计算机、组织信息、完成复杂目标的AGI，又近了一大步。

递归语言模型RLM主副分工：主模型调用Python；子模型管理上下文！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道