ICLR 的全称是 International Conference on Learning Representations,翻译过来是“国际学习表征会议”。这是人工智能领域最顶级的学术会议之一,跟CVPR、NeurIPS、ICML 是一个级别的。每年全球最厉害的AI研究成果都会在这里发布。
2026年的这个大会在巴西的里约热内卢举办,今年有个专门的板块讨论AI Agent的记忆问题。本文谈的五篇论文是从这个会上扒下来的硬货。
给AI一个超大的提示输入框,不等于给了它好记性。真正要解决这个问题,得从三个方向下手:
第一个方向是把AI要存的信息压缩到很小很小,但质量不掉。
第二个方向是搞明白到底什么样的任务才真正需要好记性,别被厂商吹的几百万字忽悠了。
第三个方向是让AI自己学会一边想问题一边整理记忆,而不是把所有废话都堆在那里。
这三个方向对应着五篇论文,咱们一篇一篇拆开来讲,保证你听完之后能跟朋友吹牛说你也看得懂ICLR。
第一个大问题:AI存东西太费地方
你见过那种囤积症患者吗?家里堆满了东西,什么都舍不得扔,最后连走路的地方都没有。AI也有这个毛病。它处理对话的时候,需要保存一个叫KV缓存的东西。KV缓存是什么意思呢?你可以把它想象成AI的草稿纸。AI读每一个词的时候都要记一些笔记,这些笔记加起来就是KV缓存。对话越长,草稿纸就越厚。一篇论文来自Google和NYU的科学家发现了一个神奇的方法,能把这张草稿纸压缩到原来的五分之一大小,而且质量一点不丢。这就像你把一件羽绒服塞进一个小袋子,拿出来穿的时候还是蓬松暖和的。
这个方法的名字叫TurboQuant。
Turbo这个词你肯定知道,就是快的意思。Quant是Quantization的缩写,翻译成大白话就是“取整”。什么叫取整呢?比如3.1415926这个数字太长了,你记成3.14就行了,差不多准但省地方。操作简单到让人想笑。他们先随便转个方向,再给每个数字简单取个整。就这么两下子,压缩效果就逼近了理论上最好的结果。
想象一下,你本来需要五张草稿纸才能写完的数学题,现在只需要一张纸就能搞定,而且答案完全正确。
这群人用OpenAI的那种1536维度的词向量做测试。
词向量又是什么?简单说就是把一个词的意思翻译成一串数字,方便AI理解。原来的压缩方法处理这些数字需要239秒,他们的新方法只需要0.0013秒。这速度差了差不多六百万倍,等你想明白这个差距有多大,AI早就干完一百轮活了。
为什么这个对AI记忆这么重要呢?因为AI Agent记东西的最大限制,就是这块KV缓存的大小,而不是模型本身有多大。AI Agent就是那种能自己干活儿的AI,比如帮你订餐、查资料、写邮件的智能助手。你能把缓存压缩五倍,就意味着可以免费让AI记住五倍长度的对话。不需要重新训练模型,不需要重新收集数据,就是简单转一下方向再取个整。这就好比你考试前发现了课本后面有公式汇总表,复习效率一下子提高了五倍,而且不花一分钱。
第二个大问题:超长上下文是个大忽悠
有些公司吹牛说自己的AI能一次记住一百万字的文章。一百万是什么概念?相当于三本《哈利波特》叠起来那么厚。听起来很唬人对不对?但你让这个AI根据小说里的线索推理出凶手是谁,它直接就懵了。一篇来自加拿大和美国科学家合作的论文,叫做BEAM,专门揭了这个老底。BEAM在这里不是激光的意思,而是一个测试基准的名字。测试基准又是什么?就是一套标准化的考试题,用来衡量AI的能力。他们发现一个扎心的事实:能读完一整本书,不代表真的理解并记住了书里的内容。
这群科学家搞了一个超级变态的考试。他们创造了100个超长对话,每个对话的字数从10万到1000万不等。然后请真人标注了2000个需要动脑子才能回答的问题。他们测试了GPT-4、Gemini这些市面上最牛的大模型。GPT-4是OpenAI公司的产品,Gemini是Google公司的产品。发现当对话越来越长的时候,这些模型的表现就像你体育课跑八百米那样,前面两圈还行,后面两圈腿都抬不起来了。就算你给它们配上一个叫RAG的检索工具,也救不了它们。RAG的全称是Retrieval-Augmented Generation,翻译成大白话就是“翻旧账增强生成”。相当于给AI配了一个可以随时查之前说过话的搜索引擎。
这篇论文最厉害的地方是发明了三种全新的记忆考试题。
第一个叫遵守指令。就是AI能不能在聊了一万句话之后,还记得你最开始说的“绝对不要提到香蕉”这个要求。
第二个叫事件排序。就是AI能不能把分散在不同地方说的线索,按照时间先后顺序排好。
第三个叫矛盾消解。就是如果用户后面说的话跟前面说的矛盾了,AI能不能发现这个人自己打自己的脸了。
这三种测试对咱们人类来说可能很简单,但对AI来说比登天还难。你让一个普通人在一万句话里记住一个细节都不容易,更别说AI了。
第三个大问题:AI不会自己整理笔记
你有没有遇到过这种情况。老师在台上讲得飞快,你在下面拼命记笔记,结果光顾着写了,根本不知道老师在说什么。AI也有这个毛病。现在的AI Agent处理多轮对话的时候,就是把每一轮说的话都堆在一起,然后让模型自己去找什么是重点。这就像你考试的时候把所有笔记和课本都摊在桌子上,每道题都要翻一遍才能找到答案,效率低得吓死人。
一篇来自新加坡国立大学、MIT等多家机构的论文,叫做MEM1,提出了一个聪明到让人拍大腿的办法。MIT就是麻省理工学院,全世界最牛的理工科大学之一。
MEM1这个名字里的MEM就是Memory记忆的意思,数字1代表第一个版本。他们用强化学习训练AI。
强化学习又是什么?你可以理解成训狗。狗做对了就给块肉干,做错了就不给。
AI也是这样,干得好就奖励,干得不好就扣分。慢慢地它就学会怎么干活了。
他们让AI在每一轮对话结束后,自己重写自己的记忆笔记。这个AI会自己判断什么信息重要要留着,什么信息是废话可以直接扔掉。而且它不光是整理记忆,还在做这件事的同时顺便把推理也给干了。
测试结果好到让人怀疑是不是作弊了。在处理16个目标的多跳问答任务时,MEM1这个只有70亿参数的小模型,准确率是另一个140亿参数大模型的三倍半,占用的记忆还少了差不多四倍。
参数是什么意思?你可以把参数理解成AI大脑里的神经元连接数量。参数越多,大脑越大,通常越聪明但也越能吃内存。70亿参数算是个小模型,140亿参数算是个中号模型。
这意味着什么?意味着记性好坏不是模型大不大的问题,而是会不会记的问题。这个AI学会的本事,不光是训练过的任务上管用,在新的没见过的任务上同样好使。就像你学会了怎么做笔记,换一门课照样能用,而不是死记硬背某一门课的笔记。
第四个大问题:翻旧账太慢耽误事
你点外卖的时候最烦什么?等。等餐半小时,等配送半小时,饿得前胸贴后背。AI Agent也有这个烦恼。每次需要从记忆里翻旧账找信息的时候,都要花时间。这个时间加起来就成了整个系统的瓶颈。一篇来自浙江大学和新加坡国立大学的论文,叫做LightMem,就是来解决这个等的问题的。LightMem这个名字,Light是轻量的意思,Mem是记忆的意思,合起来就是“轻量级记忆系统”。
这帮科学家发现,在AI Agent干活的过程中,大部分翻旧账的操作其实都在浪费时间和算力。算力就是AI干活需要的计算资源,可以理解成你做题需要消耗的脑细胞。他们做了一个系统,能在特别细的颗粒度上压缩记忆操作。怎么理解这个细颗粒度呢?就像你去超市买东西,原来的方法是每次都要从头逛一遍整个超市,从生鲜区走到零食区再走到饮料区。而他们的方法是直接告诉你牛奶在第几排第几个货架,你走过去拿就行,不用逛完整栋楼。测试结果非常吓人,这个方法最多能把翻旧账需要的计算量减少38倍,干活速度快12倍多,而且回答的质量一点都不降。
这个系统的巧妙之处在于它分两步走。在线上AI要快速响应用户的时候,检索要特别快,不能卡壳。在线下就是系统空闲的时候,它偷偷摸摸地把记忆整理好、压缩好,这样下次要翻旧账的时候就特别快了。就像你平时就把房间收拾好,要找什么东西的时候随手就能拿到,而不是每次要用了才临时翻箱倒柜。这个方法的优势随着对话变长会越来越明显。聊一百句话的时候跟传统方法差不多,但聊到一万句话的时候,差距就像火箭跟自行车的区别那么大。
第五个大问题:所有大模型全都有这个毛病
加州大学圣地亚哥分校的科学家们做了一个最扎心的测试,结果发出来之后估计让好多大厂的技术总监睡不着觉。他们搞了一个叫MemoryAgentBench的测试平台,专门用来检测AI Agent在一步一步变长的对话中的真实记忆力。Bench在这里就是考试题的意思。这个测试的设计灵感来自心理学,就像心理学家测试一个人怎么一点一点记住信息那样,特别科学也特别残忍。
他们的测试方法是这样的。信息不是一股脑全给AI,而是一轮一轮慢慢给。比如第一轮告诉AI小明喜欢踢足球,第二轮告诉AI小明住在北京,第三轮告诉AI小明有一只狗叫旺财。然后突然问AI小明最喜欢的运动是什么,或者旺财的主人住在哪个城市。这种测试对人类来说简单到什么程度呢?幼儿园小朋友都能答对。但你要知道,对于AI来说,要把分散在不同轮次的信息自己串起来,难度非常大,就像让你把十张拼图碎片在没有原图的情况下拼完整。
这个测试覆盖了四个方面的能力。第一个是准确提取信息,就是从一堆话里找到关键事实。第二个是在学习过程中实时调整,就是随着对话推进不断更新自己的认知。第三个是理解超长距离的依赖关系,就是前面说过的话隔了很久还能想起来。第四个是选择性忘记不重要的事情,就是知道什么可以丢什么必须留。他们测试了所有市面上最牛的模型,包括GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash这些收费的顶级货,还有一堆开源的模型。Claude是Anthropic公司的产品,跟OpenAI的GPT是竞争对手。结果发现没有一个模型能在四个测试里都表现好。而且随着对话轮次增加,所有模型的表现就像坐滑梯一样,稳稳当当地往下滑。
三大问题串起来就是答案
看到这里,你应该已经发现了,这五篇论文讲的其实是同一件事的三个不同角度。第一个角度是存不下。KV缓存太吃内存了,需要TurboQuant和LightMem这种压缩大法来救场。第二个角度是测不准。厂商吹的几百万字上下文一到真实测试就露馅,需要BEAM和MemoryAgentBench这种硬核考试来揭老底。第三个角度是不会记。AI不知道怎么主动管理自己的记忆,需要MEM1这种让AI自己学记笔记的训练方法。
这三个角度是层层递进的关系,顺序不能乱。第一步,你得先解决存不下的问题,不然连基础都没有。第二步,存的问题解决了,你得知道到底要存什么、什么才算好记性,这需要好的测试方法。第三步,知道目标了,你才能设计出让AI自己学会记笔记的训练方法。这三步走完了,AI Agent才能真正拥有靠谱的记忆。
ICLR 2026专门搞了一个叫MemAgents的工作坊,就是专门讨论这些问题的。这说明AI圈子里最聪明的那帮人已经达成共识了。记忆不是一个可以后加的小功能,而是整栋大楼的地基。地基不牢,上面盖得再高再漂亮,一阵风就能吹倒。现在最前沿的研究方向,就是把这三大问题放在一起解决,而不是拆开来各搞各的。因为压缩做得好,测试才能跑更长的对话。测试测得准,训练才能找到正确的方向。训练学得好,反过来又能让压缩算法更聪明。
所以你以后听到厂商吹牛可以这么怼
下次再看到哪个大厂发布新闻稿,说自己的AI能记住一百万字的上下文,你就可以微笑着问它三个问题。第一个问题,你能在多轮对话之后还记得我最开始说的那个小要求吗,比如不准提香蕉。第二个问题,你能把分散在五十轮对话里的线索自己拼起来推理出正确答案吗。第三个问题,你在聊了一整天之后,检索一条三天前说过的话需要花几秒钟。
大概率这三个问题能把大部分模型问得当场死机。这就是AI Agent记忆技术的真实现状。看起来很唬人,厂商吹得天花乱坠,但真正较真的时候,毛病一大堆。好消息是,Google、MIT、新加坡国立大学、浙江大学这些顶尖机构的科学家们正在一个一个地攻克这些难题。也许再过一两年,你就能跟一个真正有好记性的AI愉快地聊天了。它