2026年开年,递归语言模型RLM通过让主模型调用Python和子模型管理上下文,解决超长上下文难题,虽需专项训练但潜力巨大。
一家名叫Prime Intellect的神秘AI实验室提出名为“递归语言模型”(Recursive Language Model,简称RLM)的新范式,正在用“模型自己管自己上下文”的方式,把当前所有超长上下文大模型打得满地找牙!
这玩意儿不是简单加个工具调用或者上下文压缩,而是让大模型真正拥有了“操作系统”般的自我管理能力!它不再把几十万甚至上百万token塞进大脑硬撑,而是像人一样,主动去调用Python脚本、启动子模型(sub-LLMs),把信息存在外部、把计算拆解分发,最终只保留最精华的结论。
这不仅是技术升级,这是一场从“笨重单体”到“分布式智能体”的革命!
RLM到底是个什么鬼?别再被“超长上下文”忽悠了!
现在所有家都在吹自己模型上下文能到100万、200万甚至500万token,但这背后是天价的计算成本和严重的“上下文腐烂”(Context Rot)问题?意思就是,上下文越长,模型表现反而越差!信息像一碗放馊了的粥,越搅越烂。
主流做法呢?要么靠文件系统+定期总结(比如Claude Code那种),要么搞所谓的“上下文折叠”(Context Folding),让模型在推理过程中不断自我总结,但总结就意味着信息丢失!
而RLM,从根上就拒绝了这种“总结即遗忘”的思路。它的核心思想超级简单又极其暴力:主模型根本不吃原始数据,而是通过一个持久化的Python REPL(读取-求值-打印循环)环境,让模型自己写代码去读、去筛、去处理外部数据,并且可以随时召唤“子模型分身”出来帮忙干活!原始数据可能是PDF、视频、超大数据库,主模型完全不用看,只看子模型返回的精炼结果。
这样主模型上下文永远清爽,又能处理无限大的输入,简直是“四两拨千斤”!
技术细节炸裂:RLM的五大核心设计,让模型自己当CEO!
RLM之所以强,全靠它那套精心设计的“操作系统”。
首先,它的主模型只能通过一个叫answer的Python变量来输出最终答案,这个变量是个字典,有content和ready两个键。模型可以在推理过程中无数次修改content,只有当它觉得自己答案完美无误了,才把ready设为True,系统才会提取答案。
这就逼着模型像人一样,先写个草稿,反复检查修改,直到满意为止!
其次,所有外部工具(比如网络搜索、文件读写)都只能由子模型来调用。
为什么?因为这些工具返回的数据量巨大,动辄几万甚至上百万token!如果主模型直接看,上下文立马爆炸。
RLM的设计非常聪明:让子模型干脏活累活,主模型只看汇报、总结、摘要。
第三,RLM内置了一个叫llm_batch的函数,可以并行启动多个子模型,处理多个子任务。想象一下,面对一个复杂的深度研究问题,主模型直接“分封诸侯”,让几个子模型同时去查不同方面的资料,效率提升不是一星半点!
第四,RLM的Python环境是沙盒化的,隔离运行,安全可控,而且任何pip包都能安装,模型还知道自己装了哪些包。
最后,也是最骚的操作:主模型和子模型之间,通过Python代码进行“编程式沟通”。
这已经不是简单的提示词工程了,这是在用代码搭建一个由AI组成的“集群思维”!
实验结果震撼:RLM在哪些地方吊打传统模型,又在哪里翻了车?
Prime Intellect团队用GPT-5-mini这个目前最好使的商业模型,在四个极具代表性的环境里做了残酷的AB测试。
结果让人又惊又喜!在DeepDive(深度研究任务)和Oolong(超长上下文信息提取)这两个“上下文杀手”场景里,RLM的优势简直碾压。尤其是在Oolong的真实数据集上,当上下文长度冲到150万字符(约30-40万token)时,普通LLM直接宕机,而RLM依然能稳定输出正确答案!
为什么?因为它压根没把那么长的文本塞进脑子,而是用代码切片,让子模型并行处理,最后汇总。
但在math-python(数学解题)这个环境里,RLM却栽了个大跟头,表现甚至不如普通LLM。分析发现,问题出在GPT-5-mini根本不会用这套新系统!它被复杂的RLM框架搞得晕头转向,思考效率极低。
这恰恰暴露了RLM当前最大的痛点:它太超前了,现有模型都没经过针对性训练,就像给一个只会用算盘的人一台超级计算机,他反而不会用了。这也引出了Prime Intellect的核心论点:RLM的真正威力,必须通过强化学习(RL)来训练才能完全释放!
各路神仙下场PK:开源模型在RLM架构下表现如何?
除了GPT-5-mini,Prime Intellect还拉来了智谱的GLM 4.6、GLM 4.5 Air,以及自家的INTELLECT-3来跑分。结果非常有趣!
GLM 4.6在DeepDive任务上,用了RLM后性能直接翻倍!但在被给予“多用子模型”的提示后,反而崩盘了,说明它对新范式的理解非常脆弱。
而自家的INTELLECT-3则展现了更强的适应性,在Oolong和verbatim-copy(逐字复制)任务上,只要给了环境提示(env_tips),就能立刻理解RLM的玩法,性能飙升。
这说明,未来谁能率先在RLM架构上进行SFT(监督微调)和RLHF(基于人类反馈的强化学习),谁就能在下一代AI竞赛中占据绝对先机。
RLM不是一个单纯的推理框架,它是一个全新的、需要从训练阶段就开始适配的“操作系统”。未来的AI模型,将不再是单打独斗的“学霸”,而是擅长调度资源、管理团队的“CEO”。
一文看懂RLM与传统长上下文注意力的区别
很多人会问,直接改进注意力机制(Attention)来支持更长上下文不就行了?
RLM和这有啥区别?答案是:二者解决的是同一个问题的两个不同层面。
改进注意力机制,比如用稀疏注意力、线性注意力等,是从模型“内部”入手,让它在预训练阶段就学会如何更高效地“记住”过去。这是一种“被动”的、基于统计的学习。
而RLM则完全不同,它是“主动”的、基于任务结果的学习。
RLM根本不关心内部怎么记,它只关心“怎么做才能完成这个任务”。
它通过强化学习,学会在任务过程中动态决定:哪些信息要看,哪些信息要存,哪些活要外包给子模型。
这就像一个是苦练记忆力的学者,另一个是擅长使用笔记、搜索引擎和助理的实干家。
Prime Intellect认为,二者并非对立,而是互补。高效的注意力机制可以延缓“上下文腐烂”,而RLM则能主动管理上下文,将模型能力的边界推得更远。真正的长程智能体,需要这两者的结合!
面向未来的RLM:从递归深度到多模态的无限可能
目前的RLM实现,递归深度固定为1,也就是说子模型不能再召唤自己的子模型。但这只是开始!
Prime Intellect在文章末尾勾勒了RLM的宏伟蓝图:未来将支持任意深度的递归,让智能体可以构建多层次的推理树;将允许用户轻松定义自定义函数,让RLM的能力可以像乐高一样拼装;将优化对多模态数据(图像、音频、视频)的支持,让RLM不仅能处理文本,还能理解和操作整个数字世界。
最关键的是,他们将开始用小模型进行RLM的专项训练,收集数据、优化性能,最终打造出真正“原生”于RLM架构的AI。
届时,我们将看到一个能自主管理复杂项目、持续数周甚至数月进行推理、并能从失败中学习的超级智能体。这不再是科幻,这就是2026年正在发生的现实!
总结与展望:RLM不是终点,而是AGI操作系统时代的开端
总而言之,RLM代表了一种范式转移。它不再把大语言模型看作一个黑盒的文本生成器,而是将其视为一个可以编程、可以扩展、可以自我管理的智能操作系统。它通过将控制权交还给模型自身,解决了超长上下文带来的成本与性能困境。
虽然当前由于缺乏针对性训练,RLM在某些任务上表现不佳,但这恰恰指明了未来的方向。
随着RLM训练基础设施的完善和专用模型的出现,我们有理由相信,这种“模型管理模型”的递归架构,将成为构建真正长期、复杂、可靠AI智能体的基石。对于开发者而言,现在就是拥抱RLM、学习其设计哲学的最佳时机。对于所有关注AI前沿的人来说,RLM的出现,意味着我们离那个能像人类一样使用计算机、组织信息、完成复杂目标的AGI,又近了一大步。