上下文无限？RLM让大模型自己“逛”百万字文档！

递归语言模型（RLM）通过让大模型在REPL环境中自主探索超长上下文，实现性能翻倍、成本降低，突破传统上下文窗口限制。

你有没有想过——大模型的上下文窗口，其实根本不需要“硬堆”那么长？

最近，一群来自前沿AI实验室的研究者，悄悄扔出了一颗重磅炸弹：他们提出了一种叫“递归语言模型”（Recursive Language Models，简称RLMs）的新推理策略，彻底颠覆了我们对长上下文处理的认知！

这可不是什么“加长版上下文”的小打小闹，而是一场从底层逻辑出发的范式革命。
传统做法是：模型必须一次性吞下几十万甚至上百万个token，然后硬着头皮推理——结果往往是“上下文腐烂”（context rot）：越往后看，越记不住，越容易胡说八道。
但RLMs的思路完全不同：它把超长输入当成一个“环境”，让大模型像程序员在Jupyter Notebook里写代码一样，边看边试、边拆边问、边调用自己边推进——整个过程，就像一个会自己思考、自己调试、自己递归调用的AI程序员！

重点来了：RLMs并不依赖模型本身拥有超长上下文能力。
哪怕你用的是“GPT-5-mini”这种轻量级模型，只要套上RLM框架，它就能在132,000个token的超长文本中精准答题，性能居然比原生GPT-5高出114%——也就是翻了一倍还多！更夸张的是，成本还更低。
这就好比你拿一辆五菱宏光，装上智能驾驶系统，结果跑赢了特斯拉Model S，还省油。

这项技术的核心，是把用户的超长提示（prompt）放进一个类似Python变量的“环境”里，然后给大模型一个REPL（读取-执行-打印-循环）交互界面。
模型不再是被动接收一整块文本，而是主动“探索”这个环境：它可以写代码读取某一段内容、调用自己分析摘要、再递归地深入子问题——整个过程完全由模型自主决策，而不是靠人工设计的“分块策略”或“检索增强”。

研究团队强调：RLMs比任何“分块”（chunking）方法都更通用、更智能。
因为分块是人定的规则，而RLMs让模型自己决定“怎么切、怎么看、问谁问”。
这就像让一个侦探自己走进案发现场四处查看，而不是只给他几张别人拍好的照片。

为了验证效果，他们专门设计了两个极具挑战性的新基准测试。
第一个叫“乌龙”（OOLONG）——名字有点调皮，但任务极其硬核：模型要在极度密集、信息量爆炸的超长文本中回答复杂问题。
在132k到263k token的上下文中，原生GPT-5的准确率只有33%左右，几乎是在“蒙答案”。
但用了RLM框架的GPT-5-mini，不仅在132k场景下性能翻倍，在263k场景下也提升了49%，而且每次查询的平均成本更低！

第二个测试叫“浏览竞赛加强版”（BrowseComp-Plus，简称BC+），模拟的是真实世界中的深度研究任务：比如“对比过去五年中美在量子计算领域的专利布局，并分析某家初创公司的技术路线是否具备壁垒”。
这类问题需要模型从成百上千份离线文档中提取、交叉、推理信息。
传统做法是用检索系统先召回相关文档，再交给模型处理——但检索可能漏掉关键信息，或者召回太多噪音。
而RLMs的做法更暴力：直接把1000份文档（约1000万token！）一股脑塞进上下文环境，让模型自己去“逛”、去“查”、去“递归思考”。
结果令人震惊：RLM+GPT-5的性能不仅没有随文档数量增加而下降，反而稳稳保持高水平，甚至超过了精心设计的ReAct+检索器组合！

这说明什么？说明“无限上下文”可能根本不需要无限显存，也不需要重新训练模型——只需要一个聪明的推理框架，让现有模型“动起来”，自己管理信息流。

更妙的是，对用户来说，RLM的调用方式和普通大模型完全一样。
你发一个超长问题，它返回一个答案，中间那些递归调用、代码执行、环境交互，全在后台自动完成。
你感觉不到任何复杂性，但背后却是一个高度自治的AI推理引擎在运转。

这项工作目前还处于非常早期的实验阶段，但潜力巨大。
它可能彻底解决困扰开发者已久的“上下文腐烂”问题——比如你在Cursor或Claude里写了一万行代码历史，模型却突然“失忆”，搞不清你现在到底在改哪部分。
有了RLM，模型可以主动回顾关键函数、跳转到相关类、甚至递归分析依赖关系，就像一个真正的程序员在IDE里工作。

至于作者背景，虽然官方尚未完全公开团队细节，但从技术深度和工程实现来看，极可能来自顶级AI实验室或具备深厚系统与语言模型交叉经验的研究者。
他们不仅懂大模型的内在机制，还精通程序执行环境、交互式计算和递归系统设计——这种跨界能力，正是RLM能突破传统思路的关键。

可以预见，如果RLM框架被主流平台采纳，未来的AI助手将不再受限于“最多32768个token”的硬性天花板。
无论是法律合同审查、科研文献综述、还是企业级知识库问答，模型都能像人类专家一样，在海量信息中自由穿梭、层层深入、精准定位。

更重要的是，这种方法大幅降低了长上下文应用的门槛。
你不再需要等待下一代硬件或万亿参数模型，只要现有模型+RLM框架，就能实现“类无限上下文”的能力。
这对中小企业、独立开发者、甚至个人用户来说，都是巨大的福音。

当然，挑战依然存在：比如递归调用的延迟控制、错误传播的抑制、以及如何优化REPL环境的执行效率。
但方向已经明确：让模型“主动思考”，而不是“被动吞咽”，才是解锁真正智能的关键。

未来，我们或许会看到这样的场景：
你上传整本《资治通鉴》，问“王安石变法失败的根本原因是什么？”
模型不会试图一口气读完200万字，而是先列出关键章节，调用自己分析熙宁年间的财政数据，再对比司马光与苏轼的奏折观点，最后综合得出结论——整个过程，就像一个历史学家在图书馆里自主研究。

上下文无限？RLM让大模型自己“逛”百万字文档！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道