测遍所有AI记忆工具 发现两个派系正在干架
我花了几周时间,把市面上能跑的AI记忆工具全折腾了一遍。GitHub上有超过450个仓库打着“agent-memory”标签,还有460多个叫“context-management”。我跟几个智能体死党一起,一个一个看,一个一个跑。
去之前我以为会看到什么场景:40个工具用不同的API干同一件事,换汤不换药。结果我当场傻眼。我实际发现的是两个底层逻辑完全不同的派系,而且几乎没人把这条分界线画出来。更离谱的是,这个新类别到现在连个名字都没有。
我自己在家里用一台Mac Mini M4跑着一个7x24小时的智能体系统。每一次对话都叠加上一次的结果。就是这个运行环境让我注意到了这个分裂:大多数记忆工具根本驱动不了我做的事情,而那几个能驱动的工具,大家压根不把它们当成记忆工具来讨论。
下面就是我的完整地图。
两大阵营的根本差异
第一个阵营叫记忆后端。这些工具从你的对话里提取事实,存进向量数据库,等你问的时候把相关内容捞出来。它们就是自动化的笔记员。你把东西交给它们,它们归类放好,需要时再翻出来。
第二个阵营叫上下文基板。这些工具维护的是结构化的、人类可读的上下文,这些内容会在多次对话之间不断累积。没有“提取”这个动作。上下文就是文件本身。你的智能体读取这些文件,在文件内部工作,再把结果写回文件,整个系统随着时间推移不断叠加增强。
记忆后端问的问题是:“AI应该记住什么事实?” 上下文基板问的是:“AI应该在什么上下文内部工作?” 这两个问题完全不同。目前大多数项目(以及大多数GitHub星星)都集中在第一个阵营。但是第二个阵营正在涌现出真正能扩展到持续运行、多轮对话、多项目协作的架构。而且整个行业的术语已经开始朝这个方向倾斜了。
第一阵营的领跑者及其局限
Mem0这个工具在GitHub上有五万三千一百颗星。按使用量算是这个类别的老大。它只做四个操作:添加、搜索、更新、删除。它从对话里提取事实,存在三个层级上(用户、对话轮次、智能体),用混合搜索捞出来。集成起来简单到爆,提供Python和TypeScript的SDK,跟啥都能搭。
但这个工具有个硬伤。记忆都是扁平的一条一条,条目之间没有任何关系。每次提取都要调用一次大语言模型,所以提取质量完全取决于你写的提示词好不好。而且一旦存进去,这些记忆就不会自己进化。一月份的一条事实和四月份的一条事实并排躺着,系统根本不知道哪一条应该覆盖哪一条。
MemPalace有四万六千两百颗星。它走的是本地优先、逐字记忆的路线。不提取事实,而是把对话一字不差地存下来,然后组织成“侧翼”(代表实体)、“房间”(代表话题)和“抽屉”(存放原始内容)。用ChromaDB来搜索。这个工具在基准测试里的数字是这个领域最高的:光用原始语义搜索就能达到百分之九十六点六的召回率,不需要API调用,不需要大语言模型。混合管道能到百分之九十八点四。加上大语言模型重排序能超过百分之九十九。
但这个工具的局限也很明显。逐字存储是线性增长的。你聊得越多,它占的地方越大。没有压缩,没有归纳总结。如果你的问题是“找到我三周前说过的那件事”,这个工具就是最好的。但如果你的问题是“给我当前五个项目的状态汇总”,这个工具就完全不对路。
Supermemory有两万一千八百颗星。它明确打出标语说“记忆不是检索增强生成”。它的差异化能力是对时间的感知。你说一句“我刚搬到旧金山”,它就会覆盖掉你之前的城市。过期的事实会被自动忘记。用户画像结合了稳定事实和近期活动,检索速度在五十毫秒左右。它支持连接谷歌云盘、邮箱、笔记软件、微软网盘、代码仓库。能处理PDF、图片、视频、代码等多种格式。他们自己做了个基准测试框架,声称在好几个主流测试集上都排第一。
大多数第一阵营的工具把事实当成永久不变的东西。Supermemory把它们当成会进化的东西。这是第一阵营里最接近“状态管理”思维的工具,而不仅仅是“存储管理”。
Honcho只有两千四百颗星,规模小但架构独特。它把人跟智能体都当成“对等节点”,放在同一个模型里处理。一个异步推理服务在后台跑,从每个对等节点的对话历史里推导出心理层面的特征。它不只是记住你说过什么,而是在建立你如何思考的模型。它需要PostgreSQL加pgvector,许可证限制比较严,基础设施比大多数工具要重。这是第一阵营里最关注实体演化而不是单纯事实存储的工具。
第一阵营剩下的工具我快速过一下。Cognee有一万五千四百颗星,把向量搜索和图数据库结合起来做关系推理。Memori有一万三千三百颗星,它拦截大语言模型的API调用,抓取执行上下文,只用全量上下文的百分之五不到的令牌就拿到了很高的基准分。AgentScope、MemOS、EverOS、MIRIX、SimpleMem、Memobase,全都在同一个基本循环上做变种。
上面所有这些工具跑的都是同一个基本循环:对话发生,系统提取事实或存储内容,事实进入数据库(向量库、图库或者两者都有),下一次对话时捞取相关事实并注入上下文。智能体现在提取和检索这一步。人跟智能体互动。记忆系统在幕后工作。你从来不直接碰记忆,你只能相信系统会记住正确的东西并在正确的时间拿出来。
这个模式能跑通。基准测试证明了这一点。但它只解决一个具体问题:事实召回。“关于X我说过什么?”“用户喜欢什么?” 有一个完全不同的问题,上面这些工具没有一个能解决。
第二阵营的崛起与关键案例
OpenClaw在GitHub上有三十五万八千颗星。你应该已经知道这个项目了,但它的记忆架构才是我们这里要关注的重点。就是纯纯的Markdown文件:MEMORY.md做长期存储,每天一个笔记文件(格式是年月日点md)做运行中的上下文,DREAMS.md做归纳总结。他们文档里有一句话定义了整个哲学:“模型只‘记得’存到磁盘上的东西,没有隐藏状态。” 没有向量数据库。没有提取管道。就是智能体能读能写的文件。
这个工具最有趣的功能叫“做梦”。一个后台进程把每天的笔记归纳进长期记忆,分三个阶段走。浅睡眠阶段扫描每天的笔记,把相邻的行组合成连贯的块。快速眼动阶段做加权召回提升,经常被访问的信息变成“持久真相”。深度睡眠阶段做防重复的归纳写入MEMORY.md,做合并而不是重复。只有通过所有阈值门槛的条目才能被提升:最低得分零点八,最少被召回三次,最少被三个不同查询问到过。六个加权信号给每个候选条目打分:相关性占零点三,频率占零点二四,查询多样性占零点一五,新近度占零点一五,归纳度占零点一,概念丰富度占零点零六。
这是对真实使用过的上下文做后台归纳。系统不判断什么是一条“事实”,但它会把反复出现、持续相关的内容提升上来。
Zep有四千四百颗星。最近他们把自己整个定位从“记忆”改成了“上下文工程”。这一下子是整个领域里最强的市场信号。一个拿了融资、有四千四百颗星的公司,看着这个领域的发展方向,决定“记忆”这个词不对,他们要换词。在技术层面,Zep用了一个时序知识图谱。事实带有有效开始时间和有效结束时间。它自动提取关系,返回专门为大语言模型消费优化过的上下文块。检索速度在两百毫秒以内,符合各种安全合规认证。
Zep在架构上正好坐在两个阵营中间,它仍然做提取和检索。但改名这件事本身就是信号。最接近第一阵营和第二阵营边界的公司,选了第二阵营的术语。
Thoth只有一百四十五颗星,是个小项目,但我在整个领域里找到的最深度的架构就在这里。Thoth构建了一个个人知识图谱,有十种实体类型,用六十七种有类型的有向关系连接起来。每次调用大语言模型之前先做FAISS向量搜索加一跳图谱扩展。最亮眼的是它的做梦周期,一个每晚执行的四个阶段的过程:相似度超过零点九三的重复条目合并,从对话上下文里丰富描述,从共同出现的实体之间推断关系,对超过九十天的关系做置信度衰减。三层防污染机制防止跨实体的事实泄漏。这是我找到的最复杂的自动化记忆精炼系统。它只有一百四十五颗星,因为它要求你认真接受第二阵营的论点,愿意为自己的上下文搭建一个知识图谱。大多数人不会这么干。但这个项目值得盯着看。
TrustGraph有两千颗星。它引入了“上下文核心”这个概念:可移植、有版本号的捆绑包,里面包含领域模式、知识图谱、向量嵌入、证据来源和检索策略。它把上下文当代码来对待:做版本控制、写测试、上线、回滚。这个框架很重要。第一阵营的每个工具都把记忆当成对话的副产品。TrustGraph把上下文当成一等公民的工件,有身份标识、有版本号、有生命周期。你可以把一个上下文核心交给一个新的智能体,它就直接继承整个运行中的上下文。你可以分叉一个上下文核心去做实验,然后再合并回来。这是这个领域里最接近“打包好的、可移植的上下文单元”的东西。实现上比较重,但概念模型是对的。
MemSearch来自Zilliz团队,有一千两百颗星。它是Markdown优先的记忆。记忆就是点md文件,人类可读、可编辑、可做版本控制。Milvus作为从这些文件派生出来的“影子索引”在跑,可以完全重建。文件是事实来源。向量搜索只是上面的一层访问通道。三层渐进式展示:语义块到完整章节到原始转录稿。混合搜索用稠密向量加BM25加倒数排序融合重排序。值得注意的是这个工具来自Zilliz,一家向量数据库公司。他们发布了一个记忆系统,其中他们自己的产品是处于文件下游的。这是在“事实来源到底在哪”这个问题上一个很有意义的让步。
两个阵营的运行循环对比
第一阵营的循环是:对话发生,系统提取事实或存储内容,事实进入数据库,下一次对话时捞取相关事实并注入。智能体不直接碰记忆,系统替它做判断。
第二阵营的循环完全不同:智能体在工作之前先读取结构化的上下文,然后在这个上下文内部工作,最后智能体或后台进程把结果写回结构化的上下文。下一次对话开始时,上下文比之前更丰富了。智能体在于积累。上下文本身就是记忆。而且因为上下文是文件(Markdown文件、知识图谱、上下文容器),人类可以直接读、直接改、直接纠正,精确知道智能体知道什么。
第一阵营优化的是召回率:系统能不能找到正确的事实?第二阵营优化的是复合增长:系统会不会随着时间越用越好?
从我连续运行7x24小时智能体的经验来看,结论很清楚。记忆和上下文不是同一个问题。我的智能体不需要“记住”我喜欢深色模式。它需要在一个上下文中运行,这个上下文包含我当前的项目、一起工作的人、最近的决策、昨天发生了什么。而且这个上下文明天必须比今天更丰富。
记忆后端解决了召回问题。百分之九十六以上的准确率,两百毫秒以内的延迟,即插即用的API。如果你需要一个聊天机器人记住用户偏好,Mem0或MemPalace就够了。
但如果你在持续运行一个智能体,一个你睡觉时也在工作的智能体,一个从你其他工具也在写的那同一个知识库里读取数据的智能体,一个几周几个月下来真的越用越好的智能体,那么上下文基板的方法才是让这一切跑起来的关键。
我的预测是,六个月内,“上下文工程”会取代“记忆”,成为严肃的智能体基础设施领域的默认术语。那些构建基板式架构的项目会跑赢那些还在把问题框定为事实存储的项目。基准测试会被重写,或者会有新的测试来取代它们。
我自己在参与的项目叫ALIVE。结构化上下文基板,文件原生,不绑定任何特定智能体。用Walnuts做可移植的上下文容器。零基础设施依赖,就是会不断叠加的纯文本文件。我把它跑在Mac Mini上的Hermes Agent和Claude Code上面,正是因为这个,我的系统才真的跑起来了,而不是每轮对话都重置一次。
这个类别需要一个名字。我觉得就叫上下文基板。不管怎样,如果你在构建需要跑超过一次对话的智能体,你最终都会来到这里。