OpenClaw与字节跳动OpenViking：上下文与记忆是两套体系！

#AI智能体Agent #RAG检索增强生成 #AI提示上下文工程 #OpenClaw

2026-03-17 1 14K banq

AI行业正在从上下文窗口(context window)思维转向真正的记忆架构（memory architecture）。OpenViking、MemPO、EverMemOS等系统展示了文件系统式记忆、强化学习记忆管理以及神经科学记忆模型，AI开始具备跨会话学习能力。

上下文只是缓存，或者只是Web后端的一段有状态Session会话，会话中保存了当前用户与系统交互各种状态数据，如HttpSession、Cookie等，随着用户退出，这段会话就清除了。而记忆才是类似文件和数据库那样的持久化系统，否则只是保存在缓存中，系统重启后，一切丢失，用户操作的所有记录资料都没有了，所以，除了在httpsession中保存当前用户状态，还要再用户退出后，将其操作的重要成果持久化到数据库等系统。

AI的大脑正在从“便利贴模式”升级成“文件系统模式”

过去很长一段时间，全世界最聪明的那帮搞AI的人，都在疯狂地干一件事：给AI的“短期工作台”扩容。他们觉得，只要把这个叫“context window”的东西搞得足够大，比如能塞进去一百万字的书，那AI不就成了过目不忘的神童了吗？

结果现实给了所有人一个大嘴巴子，就像你上课时以为把笔记写在手上就万事大吉，结果老师突然抽查你上个月讲的内容，你一脸懵逼，因为手上的笔记早被汗擦花了。AI就是这样，无论你刚才跟它聊了多少，只要对话一结束或者话题一转，它就立刻变身成“鱼的记忆”——只有七秒，哦不，可能只有七毫秒。

下次见面，它还得重新认识你，问你叫什么名字，喜欢什么，就好像你们从来没聊过一样。

于是，整个AI行业突然就悟了，那感觉就像牛顿被苹果砸中脑袋一样。他们发现一个惊天大秘密：Context（上下文）根本不是Memory（记忆）。

Context是什么呢？就像你考试前，把所有书本都堆在桌面上，看起来很壮观，但你找起知识点来，依然手忙脚乱，而且监考老师（系统限制）还不让你堆太多。

但Memory不一样，Memory是你脑子里的图书馆，有目录、有索引、有书架，你想找什么，直接走到对应的分类，抽出书，翻到那一页就行。桌面上的资料再多，也是临时的、混乱的。

而脑子里的图书馆，才是你真正的知识积累。这周AI圈发生的大事，就是这么个“给AI建图书馆”的里程碑事件，它不是一篇让人打瞌睡的论文，也不是推特上无聊的吵架，而是一个真家伙被发布出来了。

这个真家伙，就是字节跳动开源的一个系统，叫OpenViking。

这名字听着就带劲，对吧？像不像一支要去征服知识海洋的维京海盗船队？这个系统的想法，简单到你不敢相信，但它的影响，可能比你期末考试突然考了全班第一还要巨大。

它到底干了件什么事呢？简单来说，就是它把AI的记忆，做成了一个文件系统。对，你没听错，就是你每天在电脑上看到的那个文件系统。

想象一下，你平时打开电脑的“我的电脑”，是不是能看到C盘、D盘，然后点进去，是各种文件夹，比如“学习资料”、“游戏”、“照片”之类的。
OpenViking就让AI的记忆也变成了这副模样。而且，它还搞了一套自己的协议，就像网址一样，比如 viking://memory/user/notes 这个地址，就代表了你个人笔记的记忆文件夹；viking://skills/code/review 这个地址，就代表了AI写代码审阅这个技能的知识库。

有了这套东西，AI就可以像操作硬盘一样，用各种命令来管理自己的记忆了。它能用 ls 看看这个文件夹里有什么，用 find 在整个记忆库里搜索某个关键词，还能用 cd 在各个记忆文件夹之间自由穿梭。这一刻，很多人突然就悟了。

向量搜索的世界：像在仓库里翻垃圾袋找东西

在咱们聊这个全新的文件系统之前，得先花点时间，好好“缅怀”一下过去几年最火的技术——RAG。

RAG，全称是Retrieval Augmented Generation，翻译过来叫“检索增强生成”。这名字听起来是不是特别高大上，特别有科技感？很多人把它当成解决AI记忆问题的终极方案。原理听起来也非常高科技：首先，把所有要记住的知识，比如文档、聊天记录，都变成一个一个的“向量”。你可以把这个“向量”想象成一个物体在宇宙中的坐标，或者一个物品的“指纹”。然后，当你要问AI一个问题时，就把这个问题也变成一个“向量”，然后去仓库里找跟这个“向量”最“相似”的那些“向量”，最后把找到的这些“相似”的内容，扔给AI，让它根据这些内容来回答问题。听起来是不是非常科学，无懈可击？

但是，现实的体验，就像下面这个段子一样尴尬。

假设你现在在一个乱糟糟的仓库里，你需要找一把螺丝刀。你找到仓库管理员，跟他说：“师傅，我需要一把螺丝刀，帮我找一下。”这个仓库管理员，就是采用向量搜索算法的AI。他听了你的话，微微一笑，说：“没问题，包在我身上。我最擅长的就是找‘相似’的东西。”

然后，他闭上眼睛，开始在你的问题“找一把螺丝刀”的“坐标”附近，搜索所有“形状有点像”、“功能有点像”的东西。

最后，他兴冲冲地跑回来，递给你一堆东西，里面有勺子，因为勺子也是长条形的；
有铅笔，因为铅笔也是细细长长的；
有锤子，因为锤子也是工具；
甚至还有一把牙刷，因为牙刷柄的形状，好像也有点像螺丝刀。

你看着这堆东西，哭笑不得，说：“师傅，我要的是螺丝刀，你给我这些干嘛？”师傅还很委屈地说：“这些都是跟‘螺丝刀’最相似的东西啊，你看，它们都是‘长条形’的‘工具’啊！”这就是向量搜索的核心问题。它找的是“感觉上相似”，而不是“逻辑上正确”。它不懂什么是目录，什么是分类，它只知道把所有东西都搅和在一起，然后凭感觉去捞。

于是，AI就经常出现一种非常搞笑的情况。你问它一个非常具体的问题，比如“我上次和同学讨论的那个关于黑洞的论文，放在哪里了？”结果AI翻遍了整个向量库，然后给你找出来三段完全不相关的内容：一段是关于黑洞电影的影评，一段是关于爱因斯坦的传记，还有一段是你妈妈上个月让你去买菜的清单。

这不是AI智商有问题，这是它的底层架构出了问题。它就像一个从没去过图书馆，但被要求帮你找书的人。他只能凭着对“黑洞”这个词的感觉，在图书馆里到处乱跑，看到带“黑”字的书就拿，看到带“洞”字的书也拿，最后抱着一堆《黑猫警长》、《洞穴探险指南》来见你。

OpenViking的思路则完全不同，它就像是一个熟悉图书馆的老管理员。你问它问题，它不会在图书馆里乱窜，它会先看目录。它会先找到“自然科学”那个大区域，然后再找到“天文学”那个书架，最后再去找“黑洞”分类下的具体书籍。

这个顺序的改变，看起来只是加了一个“先看目录”的步骤，但却解决了一个最核心的问题：AI终于知道自己应该去什么地方找东西了。它不再是一个在信息海洋里乱游的鱼，而是一个有导航、有地图的探险家。

分层加载：AI终于学会先看目录再看全文

OpenViking这个系统里，还有一个特别聪明、特别人性化的设计，叫做“分层加载”。英文叫tiered loading。用咱们中学生能听懂的大白话翻译一下就是：AI终于学会先看摘要，再决定要不要继续往下看了，而不是像以前那样，逮着一本书就从头啃到尾。

这个系统是怎么做的呢？它把每一个文档，不管是长的聊天记录，还是短的备忘录，都分成了三层。最上面一层，叫L0层，就是一句话摘要。比如，你写了一篇关于“如何养好一只猫”的3000字作文，那它的L0层可能就是“本文介绍了养猫的饮食、卫生和日常互动技巧”，总共大概就50个左右的单词或者汉字。中间一层，叫L1层，是一个中等长度的摘要。比如，你的这篇养猫作文，L1层可能就会把饮食、卫生、互动这三个方面的核心要点各用一两句话概括出来，大概500个单词左右。最下面一层，也就是L2层，才是你的完整原文，那3000字的全部内容。

这个流程的设计，简直是模仿人类阅读行为的典范。咱们想想，你去书店买书，是不是也是这样的流程？

你首先看到一本书，肯定是先看封面上的简介，看看这本书大概讲什么的，值不值得你花时间。如果封面简介就让你觉得“这什么玩意儿，没兴趣”，那你肯定就直接把它放回书架了，对吧？如果封面简介让你觉得“哎，有点意思”，那你接下来会干什么？你会翻开书，看看目录。

目录能让你更清楚地了解这本书的结构，知道它讲了哪几个部分，每个部分大概讲了什么。如果目录也让你满意，觉得这正是你想找的书，你才会把它买回家，然后找个舒服的下午，慢慢地、从头到尾地读一遍。

OpenViking里的AI也是这么干活的。当它需要检索信息来回答你的问题时，它会先去扫描所有相关文档的L0层，也就是那“一句话摘要”。如果它在这“一句话摘要”里就已经找到了能回答你问题的信息，那它就立刻停止，把答案给你。这过程快得像闪电。如果L0层的信息不够用，它才会去加载L1层，也就是那“中等摘要”。在L1层里，它能获得更详细的信息，如果够用了，它也就不用再去读全文了。只有当你问的问题真的非常刁钻，需要原文的每一个细节才能回答时，AI才会最后去加载L2层，也就是那个“完整文档”。

你猜这样做的结果是什么？数据出来的时候，整个行业都惊了。平均下来，每一次AI检索并回答问题的过程，消耗的“算力资源”（也就是tokens，你可以理解为AI思考时消耗的脑细胞数量）只有550个单位。而传统的向量检索系统呢？很多系统根本不分层，一上来就把可能多达10000个单位的一整篇文档全塞给AI，让它自己去找答案。

这差距有多大？整整减少了95%的消耗！这可不是什么压缩算法的小打小闹能比的，这是整个架构设计上的降维打击。AI突然之间从一个不会学习方法、只会死记硬背、把整本教科书硬吞下去的学渣，进化成了一个懂得先看目录、

再看重点、最后才看细节的学霸。它不再浪费脑细胞去处理那些它根本不需要的信息，而是把所有精力都集中在真正有用的知识上。这感觉就像是你从一个题海战术的苦海里，一下子被捞了出来，然后有人给了你一本《五年高考三年模拟》的精简精华版，告诉你，看这个就够了。

AI开始真正“学习”：每次任务结束都会写反思日志

这个系统里有一个非常人性化的机制。每次AI跟你聊完天，或者帮你完成了一个任务之后，它不会立刻就把这次对话忘得一干二净，像什么事都没发生过一样。相反，它会默默地启动一个后台程序，开始做一件事：写总结，或者说，写反思日志。

它会像一个小秘书一样，仔细地回顾这次任务的全部过程，然后提取出几个关键信息。

首先，这次任务的结果是什么？是圆满解决了你的问题，还是搞砸了？
其次，在这次互动中，你给了它什么样的反馈？比如，你是不是纠正了它的某个错误？你是不是对它给出的某个答案点了个赞？
最后，它会从这次成功或者失败的经验里，提炼出一些可以被未来复用的“成功经验”或者“失败教训”。然后，它会拿着这份总结，去更新自己的记忆目录。它会把这些新的经验，分类整理，存到对应的“文件夹”里。

这意味着什么呢？这意味着AI不再是只有在跟你聊天的时候才“活着”。它在跟你聊完天、你下线去玩游戏或者写作业之后，它依然在后台默默地“成长”。它就像一个刻苦的运动员，不只是在比赛场上才努力，在场下，他也在不停地看录像、分析战术、反思自己的不足。

系统做过一个测试，结果非常有意思。让一个AI连续进行十次会话，处理十次不同类型的任务。十次之后，再测试它的准确率。结果发现，它的准确率比第一次会话时，提高了20%到30%。这中间，没有任何人类程序员去修改它的代码，或者给它打补丁。完全是它自己，通过这十次任务的经验积累，自己把自己变聪明了。

这听起来像什么？这不就是我们天天在做的“错题本”学习法吗？

一个真正聪明的学生，不是每次都能考满分，而是每次考完试，都能把自己的错题整理得明明白白，下次再遇到类似的题目，绝对不会再错。现在，AI终于也学会了这一招，它终于开始写自己的“错题本”了。这对于那些永远在同一个问题上犯错的AI来说，简直是一场革命。它终于从一个不长记性的“马大哈”，变成了一个善于总结经验的“有心人”。

更大的context window其实带来三种灾难

可能有些同学看到这里，脑子里会冒出一个想法：哎呀，搞这么复杂干嘛，什么记忆系统、什么文件目录，多麻烦啊。咱们干脆简单粗暴一点，直接把AI的那个“context window”搞到无限大不就行了吗？比如，搞到100万token，那AI不就能把咱们所有的聊天记录、所有的文件都一次性记住，然后随时调取了吗？这个想法听起来很美好，但现实的研究结果，却给了这个想法一个非常尴尬的回应。

研究人员发现，context window越大，带来的问题反而越多，就像你给自己弄了一张特别大的书桌，结果最后连放杯水的地方都找不到了。

主要的问题，大概有三种，咱们一个一个来看。

第一种灾难，叫做“上下文投毒”。英文叫Context Poisoning。什么意思呢？假如在AI的上下文里，存在一条错误的信息，比如你之前跟它开玩笑说“太阳是从西边升起的”，然后AI就把这个错误信息当成了真理，一直记在脑子里。后面你再问它关于太阳的任何问题，它都会引用这个错误信息，最后得出一个荒谬的结论。这就像在一个几百人的大群里，有个人发了一条假消息，结果大家都不去求证，反而开始疯狂转发、引用这条假消息，最后搞得所有人都以为假消息是真的。

第二种灾难，叫做“上下文分心”。英文叫Context Distraction。当AI的上下文里塞满了它过去的行为记录和对话历史时，它就会开始不自觉地模仿这些旧行为，而不是根据新的问题进行独立的思考。这就好像一个学生，做数学题的时候，看到一道题，他不是去想这道题应该用什么新方法解，而是直接去翻自己的笔记本，找一个看起来最像的旧题目，然后把旧题目的解法原封不动地套上去。结果往往是驴唇不对马嘴，因为题目看起来像，但解题思路可能完全不一样。第三种灾难，叫做“上下文混淆”。英文叫Context Confusion。这个最好理解。当无关的信息越来越多，比如你之前跟它讨论过外卖吃什么，讨论过游戏里的装备，这些信息都和现在你要问的“物理题怎么解”完全无关。但这些无关的信息，就像在你书桌上堆满了乱七八糟的零食、漫画书、游戏机，结果你真正需要的那本物理课本，反而被淹没在这堆杂物里，找了半天都找不到。

研究人员做过一个非常狠的实验，他们测试了市面上最顶尖的11个AI模型，结果发现了一个让人大跌眼镜的数据。这些模型声称自己拥有128K甚至更大的context window，但它们在处理真正复杂任务时，真实有效的context容量，比官方宣传的，低了足足99%。什么意思呢？比如，GPT-4.1宣传自己可以处理128K tokens的上下文，相当于一本中等厚度的书。但在复杂的推理任务中，它真正能有效利用的上下文，大概只有1000 tokens，还不到一页纸。很多模型，当上下文超过2000 tokens时，就开始疯狂地出现幻觉，也就是开始胡说八道。

所以，事情已经非常清楚了：context window，只是一个让你往里“输入”的空间，就像你考试时发给你的草稿纸。而memory，才是你真正“积累”知识的地方，就像你脑子里的知识库。草稿纸再大，考试一结束就被收走了，你能带走的知识，依然是你脑子里的那些。两者完全是两码事。

真正的AI记忆系统需要三层架构

为了让大家更深刻地理解什么是真正的AI记忆系统，我给大家讲一个特别有意思的真实案例。

有一个学化学的开发者，注意啊，他不是专业的程序员，他的主业是化学。但他想用AI，帮他写一个实时在线的多人游戏。这听起来是不是像个不可能完成的任务？一个外行，想写一个复杂的游戏，这不是天方夜谭吗？但结果呢？他最后真的写出来了，代码量达到了惊人的108000行！在开发过程中，他一共使用了283次AI会话，也就是说，他断断续续地跟AI聊了283次天，让AI帮他写代码、改Bug、设计功能。

他是怎么做到的呢？关键在于，他给自己和AI之间，搭建了一套三层结构的记忆系统。咱们来看看这“三层的图书馆”到底是怎么运作的。

第一层，叫“热点宪法”。这层非常精简，就是一个Markdown格式的文件，只有660行。你别看它短，这可是整个项目的“根本大法”。里面写的，全都是这个项目的最高指导原则，比如代码要怎么写才漂亮，变量要怎么命名才规范，之前遇到过什么典型错误要避免，以及遇到不同类型的任务，应该去找哪个AI专家帮忙。这个文件，就像是公司的公司章程，每次项目启动，或者每次会话开始时，都会首先把它加载到AI的脑子里，告诉它：“小子，记住了，在这个项目里，你就得按这些规矩来！”

第二层，叫“专家智能体网络”。这一层就比较丰富了，一共有19个不同的AI专家。这里面有专门负责网络通讯的专家，他脑子里装的都是TCP/IP协议、Socket编程之类的知识；有专门负责坐标计算的专家，他知道游戏里的人物怎么跑、子弹怎么飞才不会出错；还有专门负责代码审查的专家，他每天的工作就是盯着别人写的代码，找茬，找Bug。每一个专家，都有自己的“记忆库”。这些记忆库里，主要装的不是指令，而是知识，比如各种复杂的计算公式、标准的代码模板、以及之前解决过的错误列表和解决方案。

一个非常关键的数据是，这些专家脑子里，65%的内容都是这种“知识”，而不是“你该怎么做”的指令。这就意味着，这些AI专家更像是一个个经验丰富的“工程师”，他们知道该用什么公式、该写什么代码，而不是只会听命令行事的“实习生助手”。

第三层，叫“冷存储知识库”。这一层就更庞大了，里面存放着整整34份详细的设计文档，都是关于这个游戏各个模块的详细设计方案。这些文档平时都处于“休眠”状态，只有当AI在解决问题时，发现自己需要某个特定的设计细节，它才会去这个“冷库”里按需检索，找到对应的文档，把它“解冻”并加载进来。

整个这个三层记忆系统加起来，一共有26200行内容，占了整个游戏代码库的24%。也就是说，这个游戏将近四分之一的内容，都是用来管理和组织AI记忆的“元知识”。这个案例说明了一个非常现实的问题：一个真正的、好用的AI记忆系统，绝不是一个简单的“规则文件”就能搞定的。它必须是一整套像城市基础设施一样复杂、完备的系统，有宪法、有专家库、有档案馆，缺一不可。

AI开始携带“伤疤”：错误会自动变成经验

刚才咱们聊了OpenViking，它让AI学会了写反思日志。现在咱们再来看看另一个更酷的项目，它让AI学会了带着“伤疤”前进。这个项目的名字叫 pi-self-learning，听起来就像是一个会自己学习的π（圆周率）。它的运行逻辑其实特别简单，但效果却出奇的好。

每次AI执行完一个任务，或者跟用户结束一轮对话后，这个系统就会自动启动一个反思程序。

这个程序会像一个严厉的导师一样，问AI三个非常核心的问题。

第一个问题：这次任务，你在哪里出错了？是答案给错了，还是理解错了问题，还是执行步骤有遗漏？
第二个问题：这个错误，是偶尔出现一次，还是最近反复出现的高频错误？
第三个问题：这个错误，是多久之前发生的？是刚刚发生的，还是昨天发生的，还是上个月发生的？

然后，系统就会根据这三个问题的答案，给每一条总结出来的“经验”打分。那些刚刚发生的、反复出现的、对任务结果影响巨大的错误经验，会得到最高分。而那些很久以前发生的、只出现过一次的、影响不大的经验，得分就会很低。然后，系统会把这些高分经验，自动地、优先地放进AI未来的会话上下文中。换句话说，AI不再是冷冰冰地记下所有事情，而是学会了“选择性遗忘”，只把最重要的“伤疤”带在身上。

这个系统里还有一个特别有趣的设计。当用户在跟AI交互的过程中，突然按下了“Esc”键，或者手动阻止了AI准备执行的某个命令时，系统会立刻把这个行为，标记为一个重要的“学习事件”。因为用户的每一次不耐烦、每一次打断，其实都是对AI行为的一种最真实的反馈。

AI会想：“哎呀，我正要干这个，他为什么突然不让我干了？是不是我理解错了？是不是我即将要做的事是他不想要的？”然后，它就会把这次“被打断”的经历，当成一个重要的教训，记下来，下次遇到类似情况，就会三思而后行。

更巧妙的是，执行这个“反思”任务的，并不是刚才跟你聊天那个昂贵的、聪明的AI模型，而是一个更便宜的、更小的模型。因为科学家们发现，进行逻辑推理和进行经验反思，其实是两种完全不同的认知功能。让一个擅长推理的“大将军”去做反思的“文书工作”，反而是浪费。让一个更便宜的小模型来做这件事，既高效，又省钱。

最后的效果是什么呢？这个AI，就像一个真正有经验的老师傅一样，它不需要每次遇到问题都去翻箱倒柜地搜索过去的记忆。它直接把最重要的经验，像伤疤一样带在身上，时刻提醒自己。下次再遇到类似的情况，它的第一反应不再是“让我想想”，而是“我记得上次这样做，结果被用户打断了，这次得换个方法”。它终于从一个永远在犯同样错误的“新兵蛋子”，变成了一个“老兵油子”。

强化学习让AI自己决定什么时候记忆什么时候压缩

清华和阿里最近做了一个非常前沿的实验，这个实验的名字叫MemPO。他们做了一件特别有意思的事，就是不再用人类程序员去写规则，告诉AI什么时候该记忆、什么时候该压缩信息。相反，他们让AI自己去学！

他们是怎么做的呢？他们给AI设定了一个游戏规则。在这个游戏里，AI在每一步操作中，只能做三件事中的其中一件。

第一件事，是写一个总结，把当前阶段的信息浓缩一下。
第二件事，是进行内部思考，不对外输出，只在脑子里盘算接下来该怎么走。
第三件事，是执行一个具体的行动，比如回答用户的问题，或者去检索某个文件。

然后，他们就用一种叫做“强化学习”的技术，开始训练这个AI。

强化学习，简单来说，就是“胡萝卜加大棒”。AI做对了，就给块糖吃；做错了，就打一棒子。经过无数次这样的试错，AI自己慢慢就摸索出了一套规律：在什么情况下，我应该压缩信息？在什么情况下，我应该保留所有细节？在什么情况下，我应该停下来好好思考？

实验结果出来的时候，所有人都很兴奋。这个自己学会了记忆管理策略的AI，跟那些还在用人类写的固定规则来管理记忆的AI相比，准确率提升了整整25%！而且，它消耗的“算力资源”，也就是token，减少了73%！这简直就像是，AI自己找到了一条通往正确答案的捷径，不仅跑得快，还特别省油。

而且，实验还发现一个更有意思的现象：任务越复杂，这个AI的优势就越明显。当AI需要同时处理的目标达到10个，也就是一心要管十件事的时候，那些依靠人类预设规则的传统系统，几乎已经崩溃了，完全不知道该怎么办。但这个通过强化学习自己学会了记忆策略的AI，却依然能稳稳地处理，游刃有余。

这件事说明了什么呢？它说明了一个非常深刻的道理：关于“什么时候该记忆”、“什么时候该压缩”这类看似简单的问题，实际上复杂到人类根本写不出完美的规则。

因为影响记忆策略的因素太多了，有任务的复杂度、有信息的时效性、有当前的目标、有过去的经验……这些变量交织在一起，形成了一个极其复杂的决策网络。试图用几行代码、几条规则去覆盖所有情况，那是不可能的。

唯一的出路，就是让AI自己去学，让它在跟环境的无数次互动中，自己摸索出那套最优的记忆管理策略。这就像学骑自行车一样，教练跟你说再多“要保持平衡”、“要眼看前方”，都不如你自己摔几跤，然后自己找到那个平衡点来得快。

神经科学启发的记忆系统甚至超过人类

如果说MemPO是让AI自己摸索记忆的规律，那接下来要聊的这个系统，就更加“不讲武德”了，它直接抄袭了人类大脑的结构！这个系统的名字叫EverMemOS。它的设计者们，不再把AI的记忆简单地看作是一个巨大的文本仓库，而是开始研究咱们人类的大脑是怎么工作的。

他们发现，咱们的大脑在处理信息的时候，不是简单地把所有东西都扔到一个地方。大脑会把一次经历，比如你昨天跟朋友在操场上打篮球，先分解成一个个细小的“记忆碎片”，比如“昨天下午”、“操场”、“红色的球”、“张三”、“李四”、“投进了一个三分球”、“很开心”等等。这些碎片，他们称之为“MemCells”，也就是“记忆细胞”。

然后，大脑会把这些零散的“记忆细胞”，根据它们之间的关联，比如时间、地点、人物、情绪，像拼乐高一样，拼装成一个一个的“记忆场景”，他们称之为“MemScenes”。一个“MemScene”，就是你记忆中一个完整的、有主题的事件。所以，当你现在回想“昨天打篮球”这件事时，你脑子里浮现的，不是一堆零散的信息碎片，而是一个完整的、生动的画面。

EverMemOS这个系统，就是完全模仿这个过程。它把一次对话，先分解成无数个“情景记忆片段”，也就是MemCells。然后，再根据这些片段之间的逻辑和情感联系，把它们合并成一个个有主题的“主题记忆”，也就是MemScenes。

当系统需要检索某段记忆时，它不是在垃圾堆里乱翻，而是在这个由“MemScenes”组成的知识图谱里，按照导航，找到最相关的那个场景，然后重新把这个场景的上下文拼装起来，呈现给你。这个过程，就像你走进自己的记忆宫殿，按照指引，打开一扇扇门，最终找到你想要的那段回忆。

最后，他们把这个系统的成绩，跟目前最好的AI系统以及人类的平均成绩做了一个对比。测试的任务，是关于对话记忆的。结果，EverMemOS的成绩是92.3%。之前最好的AI系统，成绩是74%。而人类的平均成绩呢？是87.9%。

结果出来了，所有人都沉默了。一个模仿人类大脑搭建的记忆系统，在记忆对话内容这个任务上，居然超过了人类自己！这意味着什么？这意味着，当我们不再把AI当成一个机器，而是试图去理解并模仿人类智能的本质时，我们可能会创造出一些，在某些方面，比我们人类自己还要强大的东西。这既让人感到兴奋，也让人感到一丝丝的敬畏。

Markdown正在变成AI记忆的通用语言

在这么多AI记忆系统百花齐放的同时，整个AI圈还出现了一个非常奇怪，但细想又在情理之中的趋势。

那就是，几乎所有跟AI记忆相关的工具和系统，都在不约而同地向同一种文件格式靠拢——Markdown。Markdown，对咱们中学生来说也不陌生，就是一种轻量级的标记语言，用几个简单的符号就能表示标题、列表、粗体、斜体之类的格式。你记笔记用的很多软件，比如Notion、Obsidian，底层用的都是Markdown。

为什么Markdown会突然变得这么火，甚至要成为AI记忆的“通用语言”呢？

因为Markdown这个格式，完美地同时满足了三件非常重要的事。

第一，人能读。用Markdown写的文件，打开就是纯文本，没有乱七八糟的二进制代码，任何一个人都能看懂，都能直接编辑。
第二，机器能读。AI解析Markdown文件，简直易如反掌，它可以通过那些简单的标记符号，轻松地理解文档的结构，知道哪是标题，哪是正文，哪是列表。
第三，Git能管理。Git是程序员最常用的版本管理工具，Markdown这种纯文本格式，是Git的最爱，可以非常方便地追踪文件的历史变化，谁在什么时候修改了哪一行，都记得清清楚楚。

于是，基于Markdown，一个叫做MIF的新概念开始出现。MIF，全称是Memory Interchange Format，也就是“记忆交换格式”。你可以把它想象成AI界的通用语言，或者是一个万能的转换插头。不管是笔记软件Obsidian里记录的你的个人知识图谱，还是AI系统OpenViking里生成的记忆文件，甚至是CI/CD系统（也就是软件自动构建和发布系统）里的配置文件，只要它们都遵循MIF这个标准，用Markdown来编写，那它们之间就可以无缝地、自由地交换数据。这带来的结果是什么？是数据流动的成本，几乎降到了零。

以前，想把笔记软件里的数据导入到AI的记忆系统，可能需要写一大堆复杂的转换程序，还得担心数据丢失。现在，可能只需要一个简单的复制粘贴，或者一个指向文件地址的链接就够了。这种生态上的大一统，将会极大地加速AI记忆系统的发展。就像秦始皇统一了文字和度量衡，让整个国家的运转效率大大提高一样。Markdown，正在成为AI世界里的那个“标准”。

最残酷的现实：AI记忆最大的难题只有6%成功率

说了这么多让人兴奋的进展，是不是觉得AI的记忆问题马上就要被完美解决了？

先别急，咱们还得看看硬币的另一面。

现在，AI记忆系统面临的最大难题，不是怎么存，也不是怎么取，而是怎么解决“冲突”。

什么叫“冲突”呢？就是在记忆库里，同时存在两条互相矛盾的知识。比如，有一条知识说“张三喜欢吃苹果”，另一条知识说“张三讨厌吃苹果”。那当AI被问到“张三喜欢吃什么水果”时，它该听谁的？哪一条知识是正确的？哪一条是过时的？哪一条是错误信息？

这个问题，在所有已知的AI记忆系统架构中，解决得怎么样呢？
成功率，只有可怜的6%。你没看错，是6%，不是60%。

这意味着，当你的AI积累了足够多的知识，开始出现各种互相矛盾的记忆时，它几乎没有办法自己判断谁对谁错。

它会陷入混乱，要么随机选一个，要么干脆两个都输出，让你自己去猜。研究人员统计了194篇关于AI记忆的学术论文，发现其中有75篇，也就是将近40%的论文，研究的都是最简单的问题，就是怎么把以前说过的一句话原封不动地想起来，也就是“事实回忆”。这种问题，基本上没有矛盾，要的就是准确。而那些更复杂的、涉及到知识冲突、需要判断和取舍的问题，几乎没有人研究。

整个AI记忆领域，现在还处于一个非常早期的阶段，就像一张世界地图，人们刚刚把海岸线画出来，内陆地区还是一片空白，等待着探险家们去发现和征服。

最后的结论：AI产品的核心已经从模型转移到“系统”

好了，讲了这么多，从OpenViking的文件系统，到分层加载，到反思日志，到三层架构，到强化学习，到超越人类，到Markdown统一，再到那令人沮丧的6%成功率，是时候总结一下了。最后，我要给大家一句非常关键的话，这句话可能会改变你对所有AI产品的看法。

过去，我们评价一个AI产品厉不厉害，主要看它用的是哪个大模型，比如GPT-4o厉害，还是Claude 3.5厉害。大家比拼的是模型的参数大小、训练数据的多少。但现在，风向变了。

未来的AI产品，比拼的不再仅仅是模型本身，而是整个“系统”。

模型是什么？模型就像是人类的大脑，是我们思考的核心。
而系统是什么？系统是支撑这个大脑运转的一切，是神经网络，是四肢，是感官，更是今天咱们聊了一整堂课的主角——记忆。
记忆，才是构成一个人长期人格的东西。没有记忆，你每次见到一个人，都得重新自我介绍，重新认识，那你们之间永远不可能成为朋友。没有记忆，AI每次跟你对话，都是陌生人。

但有了一套完善的记忆系统，AI才开始拥有连续的、稳定的“存在感”。它记得你是谁，记得你喜欢什么，记得你上次跟它聊过什么，记得它曾经帮你解决过什么难题。这时候，它才从一个冷冰冰的工具，变成了一个可以陪伴你、帮助你、不断成长的伙伴。

OpenClaw与字节跳动OpenViking：上下文与记忆是两套体系！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道