上下文只是缓存,或者只是Web后端的一段有状态Session会话,会话中保存了当前用户与系统交互各种状态数据,如HttpSession、Cookie等,随着用户退出,这段会话就清除了。而记忆才是类似文件和数据库那样的持久化系统,否则只是保存在缓存中,系统重启后,一切丢失,用户操作的所有记录资料都没有了,所以,除了在httpsession中保存当前用户状态,还要再用户退出后,将其操作的重要成果持久化到数据库等系统。
AI的大脑正在从“便利贴模式”升级成“文件系统模式”
过去很长一段时间,全世界最聪明的那帮搞AI的人,都在疯狂地干一件事:给AI的“短期工作台”扩容。他们觉得,只要把这个叫“context window”的东西搞得足够大,比如能塞进去一百万字的书,那AI不就成了过目不忘的神童了吗?
结果现实给了所有人一个大嘴巴子,就像你上课时以为把笔记写在手上就万事大吉,结果老师突然抽查你上个月讲的内容,你一脸懵逼,因为手上的笔记早被汗擦花了。AI就是这样,无论你刚才跟它聊了多少,只要对话一结束或者话题一转,它就立刻变身成“鱼的记忆”——只有七秒,哦不,可能只有七毫秒。
下次见面,它还得重新认识你,问你叫什么名字,喜欢什么,就好像你们从来没聊过一样。
于是,整个AI行业突然就悟了,那感觉就像牛顿被苹果砸中脑袋一样。他们发现一个惊天大秘密:Context(上下文)根本不是Memory(记忆)。
Context是什么呢?就像你考试前,把所有书本都堆在桌面上,看起来很壮观,但你找起知识点来,依然手忙脚乱,而且监考老师(系统限制)还不让你堆太多。
但Memory不一样,Memory是你脑子里的图书馆,有目录、有索引、有书架,你想找什么,直接走到对应的分类,抽出书,翻到那一页就行。桌面上的资料再多,也是临时的、混乱的。
而脑子里的图书馆,才是你真正的知识积累。这周AI圈发生的大事,就是这么个“给AI建图书馆”的里程碑事件,它不是一篇让人打瞌睡的论文,也不是推特上无聊的吵架,而是一个真家伙被发布出来了。
这个真家伙,就是字节跳动开源的一个系统,叫OpenViking。
这名字听着就带劲,对吧?像不像一支要去征服知识海洋的维京海盗船队?这个系统的想法,简单到你不敢相信,但它的影响,可能比你期末考试突然考了全班第一还要巨大。
它到底干了件什么事呢?简单来说,就是它把AI的记忆,做成了一个文件系统。对,你没听错,就是你每天在电脑上看到的那个文件系统。
想象一下,你平时打开电脑的“我的电脑”,是不是能看到C盘、D盘,然后点进去,是各种文件夹,比如“学习资料”、“游戏”、“照片”之类的。
OpenViking就让AI的记忆也变成了这副模样。而且,它还搞了一套自己的协议,就像网址一样,比如 viking://memory/user/notes 这个地址,就代表了你个人笔记的记忆文件夹;viking://skills/code/review 这个地址,就代表了AI写代码审阅这个技能的知识库。
有了这套东西,AI就可以像操作硬盘一样,用各种命令来管理自己的记忆了。它能用 ls 看看这个文件夹里有什么,用 find 在整个记忆库里搜索某个关键词,还能用 cd 在各个记忆文件夹之间自由穿梭。这一刻,很多人突然就悟了。
向量搜索的世界:像在仓库里翻垃圾袋找东西
在咱们聊这个全新的文件系统之前,得先花点时间,好好“缅怀”一下过去几年最火的技术——RAG。
RAG,全称是Retrieval Augmented Generation,翻译过来叫“检索增强生成”。这名字听起来是不是特别高大上,特别有科技感?很多人把它当成解决AI记忆问题的终极方案。原理听起来也非常高科技:首先,把所有要记住的知识,比如文档、聊天记录,都变成一个一个的“向量”。你可以把这个“向量”想象成一个物体在宇宙中的坐标,或者一个物品的“指纹”。然后,当你要问AI一个问题时,就把这个问题也变成一个“向量”,然后去仓库里找跟这个“向量”最“相似”的那些“向量”,最后把找到的这些“相似”的内容,扔给AI,让它根据这些内容来回答问题。听起来是不是非常科学,无懈可击?
但是,现实的体验,就像下面这个段子一样尴尬。
假设你现在在一个乱糟糟的仓库里,你需要找一把螺丝刀。你找到仓库管理员,跟他说:“师傅,我需要一把螺丝刀,帮我找一下。”这个仓库管理员,就是采用向量搜索算法的AI。他听了你的话,微微一笑,说:“没问题,包在我身上。我最擅长的就是找‘相似’的东西。”
然后,他闭上眼睛,开始在你的问题“找一把螺丝刀”的“坐标”附近,搜索所有“形状有点像”、“功能有点像”的东西。
最后,他兴冲冲地跑回来,递给你一堆东西,里面有勺子,因为勺子也是长条形的;
有铅笔,因为铅笔也是细细长长的;
有锤子,因为锤子也是工具;
甚至还有一把牙刷,因为牙刷柄的形状,好像也有点像螺丝刀。
你看着这堆东西,哭笑不得,说:“师傅,我要的是螺丝刀,你给我这些干嘛?”师傅还很委屈地说:“这些都是跟‘螺丝刀’最相似的东西啊,你看,它们都是‘长条形’的‘工具’啊!”这就是向量搜索的核心问题。它找的是“感觉上相似”,而不是“逻辑上正确”。它不懂什么是目录,什么是分类,它只知道把所有东西都搅和在一起,然后凭感觉去捞。
于是,AI就经常出现一种非常搞笑的情况。你问它一个非常具体的问题,比如“我上次和同学讨论的那个关于黑洞的论文,放在哪里了?”结果AI翻遍了整个向量库,然后给你找出来三段完全不相关的内容:一段是关于黑洞电影的影评,一段是关于爱因斯坦的传记,还有一段是你妈妈上个月让你去买菜的清单。
这不是AI智商有问题,这是它的底层架构出了问题。它就像一个从没去过图书馆,但被要求帮你找书的人。他只能凭着对“黑洞”这个词的感觉,在图书馆里到处乱跑,看到带“黑”字的书就拿,看到带“洞”字的书也拿,最后抱着一堆《黑猫警长》、《洞穴探险指南》来见你。
OpenViking的思路则完全不同,它就像是一个熟悉图书馆的老管理员。你问它问题,它不会在图书馆里乱窜,它会先看目录。它会先找到“自然科学”那个大区域,然后再找到“天文学”那个书架,最后再去找“黑洞”分类下的具体书籍。
这个顺序的改变,看起来只是加了一个“先看目录”的步骤,但却解决了一个最核心的问题:AI终于知道自己应该去什么地方找东西了。它不再是一个在信息海洋里乱游的鱼,而是一个有导航、有地图的探险家。
分层加载:AI终于学会先看目录再看全文
OpenViking这个系统里,还有一个特别聪明、特别人性化的设计,叫做“分层加载”。英文叫tiered loading。用咱们中学生能听懂的大白话翻译一下就是:AI终于学会先看摘要,再决定要不要继续往下看了,而不是像以前那样,逮着一本书就从头啃到尾。
这个系统是怎么做的呢?它把每一个文档,不管是长的聊天记录,还是短的备忘录,都分成了三层。最上面一层,叫L0层,就是一句话摘要。比如,你写了一篇关于“如何养好一只猫”的3000字作文,那它的L0层可能就是“本文介绍了养猫的饮食、卫生和日常互动技巧”,总共大概就50个左右的单词或者汉字。中间一层,叫L1层,是一个中等长度的摘要。比如,你的这篇养猫作文,L1层可能就会把饮食、卫生、互动这三个方面的核心要点各用一两句话概括出来,大概500个单词左右。最下面一层,也就是L2层,才是你的完整原文,那3000字的全部内容。
这个流程的设计,简直是模仿人类阅读行为的典范。咱们想想,你去书店买书,是不是也是这样的流程?
你首先看到一本书,肯定是先看封面上的简介,看看这本书大概讲什么的,值不值得你花时间。如果封面简介就让你觉得“这什么玩意儿,没兴趣”,那你肯定就直接把它放回书架了,对吧?如果封面简介让你觉得“哎,有点意思”,那你接下来会干什么?你会翻开书,看看目录。
目录能让你更清楚地了解这本书的结构,知道它讲了哪几个部分,每个部分大概讲了什么。如果目录也让你满意,觉得这正是你想找的书,你才会把它买回家,然后找个舒服的下午,慢慢地、从头到尾地读一遍。
OpenViking里的AI也是这么干活的。当它需要检索信息来回答你的问题时,它会先去扫描所有相关文档的L0层,也就是那“一句话摘要”。如果它在这“一句话摘要”里就已经找到了能回答你问题的信息,那它就立刻停止,把答案给你。这过程快得像闪电。如果L0层的信息不够用,它才会去加载L1层,也就是那“中等摘要”。在L1层里,它能获得更详细的信息,如果够用了,它也就不用再去读全文了。只有当你问的问题真的非常刁钻,需要原文的每一个细节才能回答时,AI才会最后去加载L2层,也就是那个“完整文档”。
你猜这样做的结果是什么?数据出来的时候,整个行业都惊了。平均下来,每一次AI检索并回答问题的过程,消耗的“算力资源”(也就是tokens,你可以理解为AI思考时消耗的脑细胞数量)只有550个单位。而传统的向量检索系统呢?很多系统根本不分层,一上来就把可能多达10000个单位的一整篇文档全塞给AI,让它自己去找答案。
这差距有多大?整整减少了95%的消耗!这可不是什么压缩算法的小打小闹能比的,这是整个架构设计上的降维打击。AI突然之间从一个不会学习方法、只会死记硬背、把整本教科书硬吞下去的学渣,进化成了一个懂得先看目录、
再看重点、最后才看细节的学霸。它不再浪费脑细胞去处理那些它根本不需要的信息,而是把所有精力都集中在真正有用的知识上。这感觉就像是你从一个题海战术的苦海里,一下子被捞了出来,然后有人给了你一本《五年高考三年模拟》的精简精华版,告诉你,看这个就够了。
AI开始真正“学习”:每次任务结束都会写反思日志
这个系统里有一个非常人性化的机制。每次AI跟你聊完天,或者帮你完成了一个任务之后,它不会立刻就把这次对话忘得一干二净,像什么事都没发生过一样。相反,它会默默地启动一个后台程序,开始做一件事:写总结,或者说,写反思日志。
它会像一个小秘书一样,仔细地回顾这次任务的全部过程,然后提取出几个关键信息。
首先,这次任务的结果是什么?是圆满解决了你的问题,还是搞砸了?
其次,在这次互动中,你给了它什么样的反馈?比如,你是不是纠正了它的某个错误?你是不是对它给出的某个答案点了个赞?
最后,它会从这次成功或者失败的经验里,提炼出一些可以被未来复用的“成功经验”或者“失败教训”。然后,它会拿着这份总结,去更新自己的记忆目录。它会把这些新的经验,分类整理,存到对应的“文件夹”里。
这意味着什么呢?这意味着AI不再是只有在跟你聊天的时候才“活着”。它在跟你聊完天、你下线去玩游戏或者写作业之后,它依然在后台默默地“成长”。它就像一个刻苦的运动员,不只是在比赛场上才努力,在场下,他也在不停地看录像、分析战术、反思自己的不足。
系统做过一个测试,结果非常有意思。让一个AI连续进行十次会话,处理十次不同类型的任务。十次之后,再测试它的准确率。结果发现,它的准确率比第一次会话时,提高了20%到30%。这中间,没有任何人类程序员去修改它的代码,或者给它打补丁。完全是它自己,通过这十次任务的经验积累,自己把自己变聪明了。
这听起来像什么?这不就是我们天天在做的“错题本”学习法吗?
一个真正聪明的学生,不是每次都能考满分,而是每次考完试,都能把自己的错题整理得明明白白,下次再遇到类似的题目,绝对不会再错。现在,AI终于也学会了这一招,它终于开始写自己的“错题本”了。这对于那些永远在同一个问题上犯错的AI来说,简直是一场革命。它终于从一个不长记性的“马大哈”,变成了一个善于总结经验的“有心人”。
更大的context window其实带来三种灾难
可能有些同学看到这里,脑子里会冒出一个想法:哎呀,搞这么复杂干嘛,什么记忆系统、什么文件目录,多麻烦啊。咱们干脆简单粗暴一点,直接把AI的那个“context window”搞到无限大不就行了吗?比如,搞到100万token,那AI不就能把咱们所有的聊天记录、所有的文件都一次性记住,然后随时调取了吗?这个想法听起来很美好,但现实的研究结果,却给了这个想法一个非常尴尬的回应。
研究人员发现,context window越大,带来的问题反而越多,就像你给自己弄了一张特别大的书桌,结果最后连放杯水的地方都找不到了。
主要的问题,大概有三种,咱们一个一个来看。
第一种灾难,叫做“上下文投毒”。英文叫Context Poisoning。什么意思呢?假如在AI的上下文里,存在一条错误的信息,比如你之前跟它开玩笑说“太阳是从西边升起的”,然后AI就把这个错误信息当成了真理,一直记在脑子里。后面你再问它关于太阳的任何问题,它都会引用这个错误信息,最后得出一个荒谬的结论。这就像在一个几百人的大群里,有个人发了一条假消息,结果大家都不去求证,反而开始疯狂转发、引用这条假消息,最后搞得所有人都以为假消息是真的。
第二种灾难,叫做“上下文分心”。英文叫Context Distraction。当AI的上下文里塞满了它过去的行为记录和对话历史时,它就会开始不自觉地模仿这些旧行为,而不是根据新的问题进行独立的思考。这就好像一个学生,做数学题的时候,看到一道题,他不是去想这道题应该用什么新方法解,而是直接去翻自己的笔记本,找一个看起来最像的旧题目,然后把旧题目的解法原封不动地套上去。结果往往是驴唇不对马嘴,因为题目看起来像,但解题思路可能完全不一样。第三种灾难,叫做“上下文混淆”。英文叫Context Confusion。这个最好理解。当无关的信息越来越多,比如你之前跟它讨论过外卖吃什么,讨论过游戏里的装备,这些信息都和现在你要问的“物理题怎么解”完全无关。但这些无关的信息,就像在你书桌上堆满了乱七八糟的零食、漫画书、游戏机,结果你真正需要的那本物理课本,反而被淹没在这堆杂物里,找了半天都找不到。
研究人员做过一个非常狠的实验,他们测试了市面上最顶尖的11个AI模型,结果发现了一个让人大跌眼镜的数据。这些模型声称自己拥有128K甚至更大的context window,但它们在处理真正复杂任务时,真实有效的context容量,比官方宣传的,低了足足99%。什么意思呢?比如,GPT-4.1宣传自己可以处理128K tokens的上下文,相当于一本中等厚度的书。但在复杂的推理任务中,它真正能有效利用的上下文,大概只有1000 tokens,还不到一页纸。很多模型,当上下文超过2000 tokens时,就开始疯狂地出现幻觉,也就是开始胡说八道。
所以,事情已经非常清楚了:context window,只是一个让你往里“输入”的空间,就像你考试时发给你的草稿纸。而memory,才是你真正“积累”知识的地方,就像你脑子里的知识库。草稿纸再大,考试一结束就被收走了,你能带走的知识,依然是你脑子里的那些。两者完全是两码事。
真正的AI记忆系统需要三层架构
为了让大家更深刻地理解什么是真正的AI记忆系统,我给大家讲一个特别有意思的真实案例。
有一个学化学的开发者,注意啊,他不是专业的程序员,他的主业是化学。但他想用AI,帮他写一个实时在线的多人游戏。这听起来是不是像个不可能完成的任务?一个外行,想写一个复杂的游戏,这不是天方夜谭吗?但结果呢?他最后真的写出来了,代码量达到了惊人的108000行!在开发过程中,他一共使用了283次AI会话,也就是说,他断断续续地跟AI聊了283次天,让AI帮他写代码、改Bug、设计功能。
他是怎么做到的呢?关键在于,他给自己和AI之间,搭建了一套三层结构的记忆系统。咱们来看看这“三层的图书馆”到底是怎么运作的。
第一层,叫“热点宪法”。这层非常精简,就是一个Markdown格式的文件,只有660行。你别看它短,这可是整个项目的“根本大法”。里面写的,全都是这个项目的最高指导原则,比如代码要怎么写才漂亮,变量要怎么命名才规范,之前遇到过什么典型错误要避免,以及遇到不同类型的任务,应该去找哪个AI专家帮忙。这个文件,就像是公司的公司章程,每次项目启动,或者每次会话开始时,都会首先把它加载到AI的脑子里,告诉它:“小子,记住了,在这个项目里,你就得按这些规矩来!”
第二层,叫“专家智能体网络”。这一层就比较丰富了,一共有19个不同的AI专家。这里面有专门负责网络通讯的专家,他脑子里装的都是TCP/IP协议、Socket编程之类的知识;有专门负责坐标计算的专家,他知道游戏里的人物怎么跑、子弹怎么飞才不会出错;还有专门负责代码审查的专家,他每天的工作就是盯着别人写的代码,找茬,找Bug。每一个专家,都有自己的“记忆库”。这些记忆库里,主要装的不是指令,而是知识,比如各种复杂的计算公式、标准的代码模板、以及之前解决过的错误列表和解决方案。
一个非常关键的数据是,这些专家脑子里,65%的内容都是这种“知识”,而不是“你该怎么做”的指令。这就意味着,这些AI专家更像是一个个经验丰富的“工程师”,他们知道该用什么公式、该写什么代码,而不是只会听命令行事的“实习生助手”。
第三层,叫“冷存储知识库”。这一层就更庞大了,里面存放着整整34份详细的设计文档,都是关于这个游戏各个模块的详细设计方案。这些文档平时都处于“休眠”状态,只有当AI在解决问题时,发现自己需要某个特定的设计细节,它才会去这个“冷库”里按需检索,找到对应的文档,把它“解冻”并加载进来。
整个这个三层记忆系统加起来,一共有26200行内容,占了整个游戏代码库的24%。也就是说,这个游戏将近四分之一的内容,都是用来管理和组织AI记忆的“元知识”。这个案例说明了一个非常现实的问题:一个真正的、好用的AI记忆系统,绝不是一个简单的“规则文件”就能搞定的。它必须是一整套像城市基础设施一样复杂、完备的系统,有宪法、有专家库、有档案馆,缺一不可。
AI开始携带“伤疤”:错误会自动变成经验
刚才咱们聊了OpenViking,它让AI学会了写反思日志。现在咱们再来看看另一个更酷的项目,它让AI学会了带着“伤疤”前进。这个项目的名字叫 pi-self-learning,听起来就像是一个会自己学习的π(圆周率)。它的运行逻辑其实特别简单,但效果却出奇的好。
每次AI执行完一个任务,或者跟用户结束一轮对话后,这个系统就会自动启动一个反思程序。
这个程序会像一个严厉的导师一样,问AI三个非常核心的问题。
第一个问题:这次任务,你在哪里出错了?是答案给错了,还是理解错了问题,还是执行步骤有遗漏?
第二个问题:这个错误,是偶尔出现一次,还是最近反复出现的高频错误?
第三个问题:这个错误,是多久之前发生的?是刚刚发生的,还是昨天发生的,还是上个月发生的?
然后,系统就会根据这三个问题的答案,给每一条总结出来的“经验”打分。那些刚刚发生的、反复出现的、对任务结果影响巨大的错误经验,会得到最高分。而那些很久以前发生的、只出现过一次的、影响不大的经验,得分就会很低。然后,系统会把这些高分经验,自动地、优先地放进AI未来的会话上下文中。换句话说,AI不再是冷冰冰地记下所有事情,而是学会了“选择性遗忘”,只把最重要的“伤疤”带在身上。
这个系统里还有一个特别有趣的设计。当用户在跟AI交互的过程中,突然按下了“Esc”键,或者手动阻止了AI准备执行的某个命令时,系统会立刻把这个行为,标记为一个重要的“学习事件”。因为用户的每一次不耐烦、每一次打断,其实都是对AI行为的一种最真实的反馈。
AI会想:“哎呀,我正要干这个,他为什么突然不让我干了?是不是我理解错了?是不是我即将要做的事是他不想要的?”然后,它就会把这次“被打断”的经历,当成一个重要的教训,记下来,下次遇到类似情况,就会三思而后行。
更巧妙的是,执行这个“反思”任务的,并不是刚才跟你聊天那个昂贵的、聪明的AI模型,而是一个更便宜的、更小的模型。因为科学家们发现,进行逻辑推理和进行经验反思,其实是两种完全不同的认知功能。让一个擅长推理的“大将军”去做反思的“文书工作”,反而是浪费。让一个更便宜的小模型来做这件事,既高效,又省钱。
最后的效果是什么呢?这个AI,就像一个真正有经验的老师傅一样,它不需要每次遇到问题都去翻箱倒柜地搜索过去的记忆。它直接把最重要的经验,像伤疤一样带在身上,时刻提醒自己。下次再遇到类似的情况,它的第一反应不再是“让我想想”,而是“我记得上次这样做,结果被用户打断了,这次得换个方法”。它终于从一个永远在犯同样错误的“新兵蛋子”,变成了一个“老兵油子”。
强化学习让AI自己决定什么时候记忆什么时候压缩
清华和阿里最近做了一个非常前沿的实验,这个实验的名字叫MemPO。他们做了一件特别有意思的事,就是不再用人类程序员去写规则,告诉AI什么时候该记忆、什么时候该压缩信息。相反,他们让AI自己去学!
他们是怎么做的呢?他们给AI设定了一个游戏规则。在这个游戏里,AI在每一步操作中,只能做三件事中的其中一件。
第一件事,是写一个总结,把当前阶段的信息浓缩一下。
第二件事,是进行内部思考,不对外输出,只在脑子里盘算接下来该怎么走。
第三件事,是执行一个具体的行动,比如回答用户的问题,或者去检索某个文件。
然后,他们就用一种叫做“强化学习”的技术,开始训练这个AI。
强化学习,简单来说,就是“胡萝卜加大棒”。AI做对了,就给块糖吃;做错了,就打一棒子。经过无数次这样的试错,AI自己慢慢就摸索出了一套规律:在什么情况下,我应该压缩信息?在什么情况下,我应该保留所有细节?在什么情况下,我应该停下来好好思考?
实验结果出来的时候,所有人都很兴奋。这个自己学会了记忆管理策略的AI,跟那些还在用人类写的固定规则来管理记忆的AI相比,准确率提升了整整25%!而且,它消耗的“算力资源”,也就是token,减少了73%!这简直就像是,AI自己找到了一条通往正确答案的捷径,不仅跑得快,还特别省油。
而且,实验还发现一个更有意思的现象:任务越复杂,这个AI的优势就越明显。当AI需要同时处理的目标达到10个,也就是一心要管十件事的时候,那些依靠人类预设规则的传统系统,几乎已经崩溃了,完全不知道该怎么办。但这个通过强化学习自己学会了记忆策略的AI,却依然能稳稳地处理,游刃有余。
这件事说明了什么呢?它说明了一个非常深刻的道理:关于“什么时候该记忆”、“什么时候该压缩”这类看似简单的问题,实际上复杂到人类根本写不出完美的规则。
因为影响记忆策略的因素太多了,有任务的复杂度、有信息的时效性、有当前的目标、有过去的经验……这些变量交织在一起,形成了一个极其复杂的决策网络。试图用几行代码、几条规则去覆盖所有情况,那是不可能的。
唯一的出路,就是让AI自己去学,让它在跟环境的无数次互动中,自己摸索出那套最优的记忆管理策略。这就像学骑自行车一样,教练跟你说再多“要保持平衡”、“要眼看前方”,都不如你自己摔几跤,然后自己找到那个平衡点来得快。
神经科学启发的记忆系统甚至超过人类
如果说MemPO是让AI自己摸索记忆的规律,那接下来要聊的这个系统,就更加“不讲武德”了,它直接抄袭了人类大脑的结构!这个系统的名字叫EverMemOS。它的设计者们,不再把AI的记忆简单地看作是一个巨大的文本仓库,而是开始研究咱们人类的大脑是怎么工作的。
他们发现,咱们的大脑在处理信息的时候,不是简单地把所有东西都扔到一个地方。大脑会把一次经历,比如你昨天跟朋友在操场上打篮球,先分解成一个个细小的“记忆碎片”,比如“昨天下午”、“操场”、“红色的球”、“张三”、“李四”、“投进了一个三分球”、“很开心”等等。这些碎片,他们称之为“MemCells”,也就是“记忆细胞”。
然后,大脑会把这些零散的“记忆细胞”,根据它们之间的关联,比如时间、地点、人物、情绪,像拼乐高一样,拼装成一个一个的“记忆场景”,他们称之为“MemScenes”。一个“MemScene”,就是你记忆中一个完整的、有主题的事件。所以,当你现在回想“昨天打篮球”这件事时,你脑子里浮现的,不是一堆零散的信息碎片,而是一个完整的、生动的画面。
EverMemOS这个系统,就是完全模仿这个过程。它把一次对话,先分解成无数个“情景记忆片段”,也就是MemCells。然后,再根据这些片段之间的逻辑和情感联系,把它们合并成一个个有主题的“主题记忆”,也就是MemScenes。
当系统需要检索某段记忆时,它不是在垃圾堆里乱翻,而是在这个由“MemScenes”组成的知识图谱里,按照导航,找到最相关的那个场景,然后重新把这个场景的上下文拼装起来,呈现给你。这个过程,就像你走进自己的记忆宫殿,按照指引,打开一扇扇门,最终找到你想要的那段回忆。
最后,他们把这个系统的成绩,跟目前最好的AI系统以及人类的平均成绩做了一个对比。测试的任务,是关于对话记忆的。结果,EverMemOS的成绩是92.3%。之前最好的AI系统,成绩是74%。而人类的平均成绩呢?是87.9%。
结果出来了,所有人都沉默了。一个模仿人类大脑搭建的记忆系统,在记忆对话内容这个任务上,居然超过了人类自己!这意味着什么?这意味着,当我们不再把AI当成一个机器,而是试图去理解并模仿人类智能的本质时,我们可能会创造出一些,在某些方面,比我们人类自己还要强大的东西。这既让人感到兴奋,也让人感到一丝丝的敬畏。
Markdown正在变成AI记忆的通用语言
在这么多AI记忆系统百花齐放的同时,整个AI圈还出现了一个非常奇怪,但细想又在情理之中的趋势。
那就是,几乎所有跟AI记忆相关的工具和系统,都在不约而同地向同一种文件格式靠拢——Markdown。Markdown,对咱们中学生来说也不陌生,就是一种轻量级的标记语言,用几个简单的符号就能表示标题、列表、粗体、斜体之类的格式。你记笔记用的很多软件,比如Notion、Obsidian,底层用的都是Markdown。
为什么Markdown会突然变得这么火,甚至要成为AI记忆的“通用语言”呢?
因为Markdown这个格式,完美地同时满足了三件非常重要的事。
第一,人能读。用Markdown写的文件,打开就是纯文本,没有乱七八糟的二进制代码,任何一个人都能看懂,都能直接编辑。
第二,机器能读。AI解析Markdown文件,简直易如反掌,它可以通过那些简单的标记符号,轻松地理解文档的结构,知道哪是标题,哪是正文,哪是列表。
第三,Git能管理。Git是程序员最常用的版本管理工具,Markdown这种纯文本格式,是Git的最爱,可以非常方便地追踪文件的历史变化,谁在什么时候修改了哪一行,都记得清清楚楚。
于是,基于Markdown,一个叫做MIF的新概念开始出现。MIF,全称是Memory Interchange Format,也就是“记忆交换格式”。你可以把它想象成AI界的通用语言,或者是一个万能的转换插头。不管是笔记软件Obsidian里记录的你的个人知识图谱,还是AI系统OpenViking里生成的记忆文件,甚至是CI/CD系统(也就是软件自动构建和发布系统)里的配置文件,只要它们都遵循MIF这个标准,用Markdown来编写,那它们之间就可以无缝地、自由地交换数据。这带来的结果是什么?是数据流动的成本,几乎降到了零。
以前,想把笔记软件里的数据导入到AI的记忆系统,可能需要写一大堆复杂的转换程序,还得担心数据丢失。现在,可能只需要一个简单的复制粘贴,或者一个指向文件地址的链接就够了。这种生态上的大一统,将会极大地加速AI记忆系统的发展。就像秦始皇统一了文字和度量衡,让整个国家的运转效率大大提高一样。Markdown,正在成为AI世界里的那个“标准”。
最残酷的现实:AI记忆最大的难题只有6%成功率
说了这么多让人兴奋的进展,是不是觉得AI的记忆问题马上就要被完美解决了?
先别急,咱们还得看看硬币的另一面。
现在,AI记忆系统面临的最大难题,不是怎么存,也不是怎么取,而是怎么解决“冲突”。
什么叫“冲突”呢?就是在记忆库里,同时存在两条互相矛盾的知识。比如,有一条知识说“张三喜欢吃苹果”,另一条知识说“张三讨厌吃苹果”。那当AI被问到“张三喜欢吃什么水果”时,它该听谁的?哪一条知识是正确的?哪一条是过时的?哪一条是错误信息?
这个问题,在所有已知的AI记忆系统架构中,解决得怎么样呢?
成功率,只有可怜的6%。你没看错,是6%,不是60%。
这意味着,当你的AI积累了足够多的知识,开始出现各种互相矛盾的记忆时,它几乎没有办法自己判断谁对谁错。
它会陷入混乱,要么随机选一个,要么干脆两个都输出,让你自己去猜。研究人员统计了194篇关于AI记忆的学术论文,发现其中有75篇,也就是将近40%的论文,研究的都是最简单的问题,就是怎么把以前说过的一句话原封不动地想起来,也就是“事实回忆”。这种问题,基本上没有矛盾,要的就是准确。而那些更复杂的、涉及到知识冲突、需要判断和取舍的问题,几乎没有人研究。
整个AI记忆领域,现在还处于一个非常早期的阶段,就像一张世界地图,人们刚刚把海岸线画出来,内陆地区还是一片空白,等待着探险家们去发现和征服。
最后的结论:AI产品的核心已经从模型转移到“系统”
好了,讲了这么多,从OpenViking的文件系统,到分层加载,到反思日志,到三层架构,到强化学习,到超越人类,到Markdown统一,再到那令人沮丧的6%成功率,是时候总结一下了。最后,我要给大家一句非常关键的话,这句话可能会改变你对所有AI产品的看法。
过去,我们评价一个AI产品厉不厉害,主要看它用的是哪个大模型,比如GPT-4o厉害,还是Claude 3.5厉害。大家比拼的是模型的参数大小、训练数据的多少。但现在,风向变了。
未来的AI产品,比拼的不再仅仅是模型本身,而是整个“系统”。
模型是什么?模型就像是人类的大脑,是我们思考的核心。
而系统是什么?系统是支撑这个大脑运转的一切,是神经网络,是四肢,是感官,更是今天咱们聊了一整堂课的主角——记忆。
记忆,才是构成一个人长期人格的东西。没有记忆,你每次见到一个人,都得重新自我介绍,重新认识,那你们之间永远不可能成为朋友。没有记忆,AI每次跟你对话,都是陌生人。
但有了一套完善的记忆系统,AI才开始拥有连续的、稳定的“存在感”。它记得你是谁,记得你喜欢什么,记得你上次跟它聊过什么,记得它曾经帮你解决过什么难题。这时候,它才从一个冷冰冰的工具,变成了一个可以陪伴你、帮助你、不断成长的伙伴。