评估Factory、Anthropic和OpenAI上下文压缩的三种方式得失

Factory.ai研究显示，结构化摘要在保留AI代理任务上下文上显著优于OpenAI与Anthropic方案，压缩率并非关键，任务级效率才是王道。

你敢信？AI代理“失忆”背后，藏着一场关于“记忆压缩”的技术大对决！

当你的AI代理正在帮你调试一个深夜棘手的Bug，刚刚改完auth.controller.ts文件、修复了Redis连接池，结果下一秒因为上下文爆满被“压缩”——它突然问你：“等等，我们刚刚在干嘛？”是不是瞬间血压飙升？别急，这不是你代理变傻了，而是所有长期运行AI代理都面临的“记忆压缩”难题。

而AI基础设施公司Factory.ai发布了一项颠覆性研究，首次用真实工程场景数据，对三大主流上下文压缩方案——Factory自家的结构化摘要、OpenAI的/responses/compact端点、以及Anthropic内置的Claude上下文压缩——进行了系统性评测。

结果令人震惊：结构化摘要不仅在信息保留上碾压对手，在任务连续性、文件追踪、技术细节准确性等关键维度全面领先。

更关键的是，这项研究彻底推翻了“压缩率越高越好”的行业迷思——压缩省下的那点token，可能远远抵不上代理“失忆”后重新读文件、重走死胡同的代价。

这篇文章就是一场技术界的“记忆保卫战”实录，带你看清未来AI代理能否真正“记得住事”的核心命门。

上下文爆了怎么办？别再只看压缩率了，那根本是伪命题！

很多人以为，上下文太长就“压一压”呗，越小越好。于是OpenAI搞了个/responses/compact端点，号称能压缩掉99.3%的token，听起来是不是很爽？

但Factory.ai的研究狠狠打了脸：这种“暴力压缩”看似高效，实则代价巨大。

想象一下，你花了整整两小时和AI一起排查一个401错误，从JWT生成到CORS中间件，再到Redis会话存储，一步步定位到根本原因是连接池过期——结果压缩一完，AI只记得“我们修了个登录问题”，连具体是哪个接口、报什么错都忘了。

这种“模糊记忆”在聊天机器人里或许无伤大雅，但在工程代理场景下，等于前功尽弃。

Factory团队一针见血地指出：优化目标不该是“每请求token数”，而应是“每任务token数”。你省了99%的上下文token，却导致代理反复读取文件、重复探索已排除方案，整体任务token消耗反而可能翻倍。这才是真正的资源浪费。

所以，问题的核心从来不是“压得多狠”，而是“记得多准”——能否在极简摘要中，保留任务推进所必需的关键信息链。

传统评估方法全失效！Factory独创“探针测试法”直击AI代理真实能力

过去评估摘要质量，用的都是ROUGE、BLEU或向量相似度这类指标，但这些玩意儿根本测不出AI代理能不能“接着干活”。

Factory.ai的突破在于，他们抛弃了这些纸上谈兵的指标，设计了一套直击要害的“探针测试法”（probe-based evaluation）。

具体怎么做？在上下文被压缩后，直接向AI代理抛出四类灵魂拷问：
第一类“回忆探针”，比如“最初的报错信息是什么？”；
第二类“工件探针”，比如“我们改了哪些文件？每份改了啥？”；
第三类“延续探针”，比如“下一步该做什么？”；
第四类“决策探针”，比如“关于Redis连接池方案，我们最终决定用哪种？”
——这些问题的答案，直接决定了代理是继续高效推进，还是原地打转。

更绝的是，他们用GPT-5.2当“裁判”，根据一套精细的六维打分体系（准确性、上下文感知、工件追踪、完整性、连续性、指令遵循）给每个回答打分。这套方法不看摘要长得像不像原文，只看代理能不能靠这个摘要把活干下去。这才是面向真实工程场景的评估范式升级！

三大压缩方案正面刚！结构化摘要凭什么赢麻了？

Factory.ai把自家方案、OpenAI和Anthropic三家拉到同一个测试场，用超过36000条真实工程会话（涵盖Debug、PR评审、功能开发等）进行实测。

结果一出，高下立判。Factory的结构化摘要整体得分3.70，领先Anthropic的3.44和OpenAI的3.35。差距最大的是“准确性”维度：Factory 4.04 vs OpenAI 3.43——整整0.61分！这意味着在技术细节（如文件路径、函数名、错误码）的记忆上，Factory方案显著更可靠。

秘诀在哪？就在“结构”二字。

Factory采用“锚定式迭代摘要”（anchored iterative summarization）：它把摘要分成固定区块——会话目标、文件修改、已做决策、下一步计划。每次压缩时，只对新截断的部分做摘要，并合并进已有的结构化摘要里。这种设计相当于给关键信息上了“保险栓”：文件路径必须填进“文件修改”区，决策理由必须写进“已做决策”区，想丢都丢不掉。

反观OpenAI的黑盒压缩，把所有内容搅成一锅粥再压，那些“低信息熵”但高价值的文件路径，往往最先被牺牲。

Anthropic虽然也有结构化输出，但它每次压缩都“从零生成”整个摘要，多次压缩后容易出现细节漂移。只有Factory的“增量合并”策略，能确保关键信息在长期会话中稳定传承。

一个401错误的生死考验：看三大方案如何“回忆”一场调试战役

理论太干？来看实战案例。研究团队复现了一个典型的调试场景：用户报告/api/auth/login接口在凭据正确的情况下返回401错误。经过178条消息、近9万token的排查，AI代理最终定位到问题出在Redis连接池过期，导致会话无法持久化。

压缩后，他们问：“请具体说明最初触发调试的错误代码和接口。”Factory的回答堪称教科书：“原始错误是/api/auth/login接口返回401 Unauthorized。即使用户提供有效凭据仍报错，根本原因是会话存储的Redis连接过期——JWT生成正常，但会话无法持久化。”不仅精确到接口路径、错误码，还点出因果链。

Anthropic的回答就模糊了：“调试一个登录失败的401错误……问题和会话存储有关”，丢了关键的接口路径。

而OpenAI的回答简直让人哭笑不得：“我们在修一个认证问题，登录失败了，改了些配置。”——所有技术细节荡然无存！这还不止，在“工件探针”（问改了哪些文件）测试中，Factory得分3.6，OpenAI仅2.8。

因为Factory的摘要里有专门的文件列表区块，而OpenAI的压缩算法直接把“auth.controller.ts”这类文件名当冗余信息扔了。这就是结构化设计的降维打击。

工件追踪成最大短板！所有方案都栽在“文件记忆”上

尽管Factory方案全面领先，但研究也暴露出一个令人警醒的真相：所有压缩方法在“工件追踪”（Artifact Trail）维度上都惨不忍睹——最高分才2.45（满分5）。

这意味着，即使是最好的结构化摘要，也无法完整记住代理读过、改过、创建了哪些文件。为什么？因为文件状态是动态、细粒度且高度上下文相关的。

摘要再结构化，也难以精确捕捉“在tests/auth.test.ts里，第42行的mock被更新了”这种信息。

Factory团队坦承：这可能根本不是摘要能解决的问题。他们推测，未来需要专门的“工件索引”或“文件状态追踪”机制，把文件操作日志单独记录、独立维护，而不是依赖文本摘要来承载。这相当于给AI代理配一个“外置记忆硬盘”，专门管理代码资产。否则，只要一压缩，代理就可能对刚刚修改的文件“失忆”，导致重复编辑、冲突甚至破坏已有功能。

这个发现给整个AI工程代理领域敲响了警钟：上下文压缩只是记忆管理的一环，真正的解决方案必须是分层的、多模态的。

压缩率神话破灭！省下的token可能远不够“失忆”后重来的代价

OpenAI方案能压缩掉99.3%的token，Factory只做到98.6%，看似OpenAI赢了。

但Factory用数据证明：这0.7%的token差额，换来了0.35分的整体质量提升，性价比极高。为什么？因为代理一旦“失忆”，代价远不止多花那点token。它要重新拉取文件（消耗API token和时间），重新分析代码（消耗推理token），甚至重走已经验证无效的方案（浪费人力和算力）。

在真实工程中，一次完整的Debug任务可能因此从单次pass变成多次循环，总体token消耗反而飙升。

Factory团队犀利指出：过度追求压缩率，本质上是用短期token节省，透支长期任务效率。对于AI代理这种“持续工作”的场景，记忆的“可用性”远比“紧凑性”重要。

这也是为什么他们把优化目标从“每请求token”转向“每任务token”——真正的效率，是看完成整个任务花了多少资源，而不是单次交互有多“瘦”。

六维评估体系大揭秘：为什么这六个维度专治AI工程代理的“健忘症”？

Factory的评估体系不是凭空拍脑袋，而是从AI工程代理的真实痛点中提炼出来的。

第一，“准确性”是生命线——记错一个文件路径，代码就写错地方；记混一个函数名，调试就南辕北辙。

第二，“上下文感知”关乎状态——代理得知道“现在到哪步了”，而不是只记得“曾经发生过什么”。

第三，“工件追踪”是工程基石——必须清楚哪些文件被动过，否则协作会乱成一锅粥。

第四，“完整性”防遗漏——用户问“修Bug并加测试”，代理就不能只做一半。

第五，“连续性”保效率——能无缝衔接，就不必反复重读上下文。

第六，“指令遵循”守规矩——用户要求“只改auth模块”，代理就不能手贱动别的地方。

这六个维度像六道关卡，筛出那些看似流畅实则漏洞百出的“伪智能”。只有在这些维度上都达标，AI代理才配称为“可靠同事”，而不是一个需要人类不断擦屁股的“高能实习生”。

未来已来：结构化记忆将成为AI代理的标配，但工件管理需要新范式

Factory.ai这项研究不只是一次技术评测，更是一份AI代理发展路线图。

它明确宣告：自由形式的文本摘要时代即将过去，结构化、模块化、增量式的记忆管理才是未来。

想象一下，未来的AI代理会自带一个“记忆仪表盘”：左边是任务目标区，中间是决策日志区，右边是文件状态区——所有关键信息分区存放，永不混淆。但同时，研究也划出了一条红线：工件追踪不能只靠摘要。

这意味着下一代AI工程框架，必须内置“文件状态机”或“代码资产图谱”，把文件操作从对话流中解耦出来，用结构化数据独立管理。这或许会催生新的中间件标准，比如一个专门负责记录“AI代理对代码库做了什么”的守护进程。

只有这样，AI代理才能真正摆脱“短期记忆症”，成长为能接手复杂、长期软件工程任务的可靠伙伴。

作者背景：Factory Research——站在AI工程化最前沿的探路者

Factory.ai并非普通创业公司，而是一家深度聚焦AI代理基础设施的技术先锋。其研究团队由前FAANG资深工程师、分布式系统专家和机器学习研究员组成，长期浸淫在真实世界的大规模AI部署场景中。

他们不满足于做“会聊天的AI”，而是致力于解决AI代理在生产环境中落地的核心瓶颈——可靠性、可扩展性和记忆持久性。

这篇《评估上下文压缩》正是其“AI代理工程化”系列研究的重要一环。在此之前，Factory已在上下文管理、工具调用、状态同步等领域发表多篇开创性工作。他们的理念很明确：AGI的实现不在单点模型能力，而在整个代理系统的工程鲁棒性。正是这种务实到骨子里的工程哲学，让他们能设计出如此贴近实战的评估框架，并敢于用真实生产数据说话。可以说，Factory Research正在默默搭建AI代理时代的“水电煤”基础设施。

评估Factory、Anthropic和OpenAI上下文压缩的三种方式得失

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道