Dhravya Shah 在推文中提出了AI发展的下一个重大转折点——真正的个性化记忆系统。他指出当前行业对AI记忆的理解存在根本误区:向量数据库和RAG只是简单的信息检索工具,缺乏时间感知、因果推理和动态更新能力。真正的记忆应该像人脑一样 evolves(演化),能够追踪事实变化、理解时间线、自动遗忘无关信息。
Supermemory 提出的解决方案包含三大支柱:向量-图混合架构追踪知识演变、用户画像提供默认上下文、混合检索结合记忆与原始数据。这套系统能在200-400毫秒内完成记忆调用,实现真正的个性化AI体验。
AI江湖的下一个大招:让机器真正懂你
这几年AI圈的风起云涌大家都看在眼里,一波接一波的技术浪潮把咱们的生活搅得天翻地覆。最开始是数据爆发,模型们像饿了三天的老虎一样疯狂吞食信息,变得越来越聪明;然后是推理能力大爆发,普通人也能在自己电脑上跑大模型了;接着向量数据库和RAG技术横空出世,让AI能查资料了;现在呢,Claude Code这样的智能体遍地开花,AI开始能干活了。
但是,真正的重头戏才刚刚拉开帷幕。下一个改变游戏规则的拐点,叫做记忆,是那种真正魔幻级别的个性化体验。
想象一下,你的AI助手主动提起一件你自己都快忘了的小事,那种被完全理解的震撼感,那种上下文长度不再成为束缚、可以和你进行长期深度对话的畅快感,这才是未来该有的样子。这种真正的个性化其实可以用一些出人意料的简单方式实现,但在聊怎么造之前,咱们得先看看行业里的老司机们都踩了哪些坑。
向量数据库和RAG根本不是记忆,它们只是高级搜索
现在满大街都在吹RAG,好像有了它AI就有了记忆似的。拉倒吧,RAG干的事情简单粗暴得令人发指:就是把原始信息扔进去,转化成一堆向量数字,然后让用户能搜索到。最匹配的片段被拎出来,丢给大模型去回答问题。
整个过程就一步,没有任何状态保持,没有版本管理,不会随着用户的使用而进化,更别提理解时间先后顺序了。真正的记忆是会生长、会更新、会从旧信息里长出新知识的活物。RAG呢?它就是个死板的档案柜,找得到文件,但读不懂人生。
一个血泪案例:RAG是怎么把你坑惨的
咱们来看个真实的场景,保证让你笑中带泪。第一天,你兴高采烈地告诉AI:我爱死阿迪达斯运动鞋了,穿着贼舒服。第三十天,你气冲冲地抱怨:我那双阿迪达斯穿一个月就开胶了,质量烂到家。第三十一天,你下定决心:我要转投彪马阵营。到了第四十五天,你问AI:我该买啥运动鞋?这时候RAG系统会干出啥蠢事呢?它把你的问题转化成向量,去数据库里找最相似的片段,结果找出来的还是第一天那句我爱死阿迪达斯了,因为语义上确实最匹配。
于是AI一本正经地给你推荐阿迪达斯,完全无视你中间经历的背叛和失望。这就是RAG的致命伤:它把每个记忆片段当成孤立的小岛,看不见时间线,读不懂因果关系,更不知道你的喜好已经天翻地覆。
这种推荐,不把你气到摔手机才怪。
真正的记忆系统该怎么思考这个问题
真正的记忆系统看到同样的场景,处理方式完全不同。
当你问该买啥鞋时,它会启动时间感知机制:哦,阿迪达斯那个偏好是四十五天前的老黄历了,已经过期作废。
它会梳理因果链条:鞋坏了导致你失望,失望促使你换品牌,现在的状态是站队彪马。
基于这套推理,AI会毫不犹豫地给你推荐彪马,甚至还能贴心地问一句:上次那双开胶的阿迪达斯退掉了吗?这种体验才叫真正的个性化,才叫懂你。
记忆系统必须理解时间的力量,知道什么信息已经过时,什么因果关系在驱动你的决策,以及你当下真实的状态是什么。没有这些能力,AI永远只是个高级搜索工具,而不是真正的伙伴。
RAG还有个毛病:该忘的忘不掉
除了看不懂时间线,RAG还有个让人抓狂的缺陷:它不会遗忘。想象一下,你十年前高考前紧张得要死,那是你人生中的重要时刻,但现在你已经是职场老油条了,那段经历对你的日常生活还有啥意义?RAG会把这段记忆原封不动地保存着,每次检索都可能把它翻出来,占用宝贵的上下文空间,干扰对当前问题的判断。
真正聪明的AI应该知道什么该记、什么该忘,像人脑一样自动清理缓存,把精力集中在对你现在真正重要的事情上。记忆不是囤积癖,而是精心策划的信息策展。
混合搜索才是正道:鱼与熊掌兼得
想要做好记忆这件事,得走混合搜索的路子,把各种技术的优点都揽过来。
RAG有它的用武之地,向量检索在找相似内容时确实快,但仅靠它远远不够。
你还需要一个能理解时间的系统,能追踪事实演变的系统,能自动遗忘的系统。(上下文图谱、事件溯源)
把这些能力打包在一起,才能给用户提供真正流畅的体验。
Supermemory在这个方向上做了大量探索,他们的文档里详细解释了这套混合架构是怎么运作的,核心思想就是不让任何一种技术单打独斗,而是让它们协同作战,各展所长。
让智能体翻箱倒柜找记忆?这主意蠢到家了
听到这里,有些技术宅可能会拍大腿:哎呀,让智能体自己去翻遍所有信息不就行了?让它自己决定该用啥!这方案听起来很美,实际上坑死人。
首先,速度就是个大问题。让智能体去遍历海量记忆,就算优化得再好,也得花个十秒钟,乐观估计也得一整秒。这在现实世界完全 unacceptable。为啥?因为记忆调用处于智能体生命周期的热路径上,这是智能体开口说话之前必须完成的准备工作。用户可没耐心等你慢慢翻箱倒柜,他们希望AI秒回,像真人聊天那样自然流畅。超过半秒的延迟都会让用户体验断崖式下跌。
速度就是生命:200到400毫秒是生死线
在Supermemory的实践中,他们发现记忆检索必须在200到400毫秒内完成。
超过这个门槛,用户就会开始烦躁,感觉AI变傻了。
这个速度要求极其苛刻,意味着你不能搞复杂的遍历逻辑,不能让智能体现场分析,必须提前把记忆组织好,做到随取随用。每一次对话回合都可能触发记忆调用,如果每次都要跑一遍复杂的检索流程,成本会高到离谱,规模化部署就是天方夜谭。
更别提上下文倾倒这种粗暴做法了,你把所有信息一股脑塞给模型,不仅烧钱,还会让模型产生幻觉,时间成本也居高不下。这条路走不通。
压缩技术也不是万能药
有人可能会问:那压缩技术呢?不是能把长对话浓缩成摘要吗?压缩确实在编码智能体里很有用,因为代码相关的信息结构清晰、会话集中,压缩后还能保留关键逻辑。但个性化记忆完全是另一回事。个性化靠的是那些细枝末节:你喜欢的咖啡口味、你讨厌的同事名字、你上周随口提过的小烦恼。
这些细节一旦压缩就没了,变成干巴巴的标签。真正的记忆系统必须保留这些颗粒度,在需要时能精准调取。压缩适合处理结构化数据,不适合承载情感温度。
Supermemory的漂亮架构:向量和图的联姻
说了这么多限制条件,到底该怎么造一个真正好用的记忆系统?
Supermemory的团队在这个问题上绞尽脑汁,他们的答案是从人脑汲取灵感,搞了一套向量加图的混合架构。
这不是传统意义上的知识图谱,没有那种实体关系实体的三元组,也没有漫长的路径遍历。
Supermemory的图结构专门用来追踪一个核心对象——也就是你——的事实和知识是如何随时间变化的。它自动更新、自动推导、自动扩展,所有信息都围绕着你这个唯一的真实实体展开。这种设计简洁得令人发指,却又强大得不可思议。
更新机制:事实变了,记忆跟着变
这套系统的第一个杀手锏是自动更新。
假设一开始系统记录的是阿历克斯在谷歌当软件工程师,后来阿历克斯跳槽去Stripe做产品经理了。传统的RAG会把这两条信息并存,检索时可能随机返回任一条。Supermemory不一样,它会识别出第二条信息是对第一条的更新,自动把旧标记为过时的,把新标记为当前的。
这样当你问阿历克斯在哪工作时,系统绝不会给出谷歌这个错误答案。记忆系统必须理解事实的生命周期,知道什么还在有效期,什么已经成为历史。
推导机制:让AI在睡觉时也在思考
第二个杀手锏是自动推导,也就是所谓的睡眠时计算。
系统记录阿历克斯是Stripe的产品经理,又记录阿历克斯经常讨论支付API和欺诈检测,于是它自动推导出阿历克斯很可能负责Stripe的核心支付产品。这种推导不需要用户明确告知,是系统在后台默默完成的。当你下次和阿历克斯聊天时,AI就能基于这个推导给出更精准的建议,比如推荐相关的技术文章或行业活动。这就像是AI在睡觉的时候也在为你整理思绪,醒来后变得更聪明。
遗忘机制:清理缓存,轻装上阵
第三个杀手锏是自动遗忘。
系统会定期清理那些不再相关、不再有用的信息,就像人脑会自动淡化不重要的记忆一样。你十年前的高考焦虑?忘了吧。你三年前喜欢的已经停产的手机型号?没必要留着。这种遗忘不是随机的,而是基于信息的使用频率、时效性和重要性进行智能筛选。
保留精华,丢弃糟粕,这样才能确保记忆系统始终保持高效,不会因为数据膨胀而变慢。遗忘不是缺陷,而是智慧的体现。
记忆不只是检索:用户画像的魔法
传统记忆系统的另一个大误区是只关注检索。
它们拼命优化怎么在用户提问前找到相关信息,却忽略了一类更微妙的问题。很多时候用户说的话极其普通,甚至只是打个招呼,比如你好,我今天心情糟透了。这时候如果AI回个 generic 的你好,有什么可以帮你的,用户简直想摔键盘。
真正聪明的AI应该能从这句简单的抱怨里读出深层需求,自动联想到用户最近在忙的大项目,主动问一句:那个新客户谈得怎么样了?这种能力不是靠检索能实现的,因为用户根本没提客户的事。
用户画像:AI的默认上下文
为了解决这个问题,Supermemory搞了个叫用户画像的东西。
你可以把它理解为AI的RAM层,也就是随时待命的内存。这里面分静态和动态两块。
静态部分包括那些除非用户明确更新否则永远不变的信息:你的名字、你的位置、你的职业、你的年龄段、你的核心兴趣。
动态部分则是你最近在忙的事、你当下的情绪状态、你刚做的决定。比如静态部分写着Dhravya,旧金山,Supermemory的创始人兼CEO,18到25岁,对AI基础设施和开发者工具感兴趣。动态部分则记录着目前正在做客户上下文图谱,最近在优化Claude的推理成本,刚把语音模型从OpenAI换成Gemini Live,以及那个阿迪达斯换彪马的小插曲。
静态上下文:你的不变标签
静态上下文就像你的身份证信息,是AI认识你的基础。它知道你是Dhravya,不是别人;知道你在旧金山混,不是纽约;知道你是Supermemory的老大,不是打工仔;知道你对AI基础设施着迷,不是 crypto 韭菜。这些信息不需要每次对话都重新确认,它们就像背景色一样始终存在。当你问任何问题时,AI都会自动把这些标签带入思考过程。比如推荐会议地点时,它会优先考虑旧金山本地的场地;推荐阅读材料时,它会偏向AI基础设施相关的技术博客。这种默认认知让每次交互都充满个人色彩。
动态上下文:你的实时状态
动态上下文则像你的心情日记,记录着你最近的状态波动。Dhravya最近在捣鼓客户上下文图谱,这意味着和他聊工作,这个话题一定绕不过去。他在优化Claude的推理成本,说明他对性价比极其敏感,推荐解决方案时必须强调省钱。他刚把语音系统从OpenAI迁到Gemini Live,表明他在技术选型上很务实,不迷信大牌。他因为阿迪达斯质量差而转投彪马,说明他现在对品牌忠诚度降低,更看重实用性。他偶尔为基础设施成本和规模化压力而焦虑,这时候跟他聊项目,得先安抚情绪再给建议。
这些动态信息让AI能抓住当下的你,而不是三个月前的你。
画像加检索:双剑合璧的个性化
把用户画像和记忆检索结合起来,AI就拥有了超能力。每次对话开始时,画像提供基础语境,让AI知道在和谁说话。然后检索系统根据具体问题调取相关记忆,补充细节。这种组合拳确保了无论用户问的是具体事务还是随口闲聊,AI都能给出恰到好处的回应。
画像解决了非字面问题的理解难题,检索解决了具体信息的精准定位,两者缺一不可。这才是真正的个性化,不是简单的记住你喜欢红色,而是理解你为什么喜欢红色,以及这个喜好现在是否还成立。
混合检索:鱼和熊掌我都要
Supermemory还搞了个混合检索模式,因为他们发现纯靠记忆提取很难做到密度刚刚好。有时候记忆太精简,缺了关键细节;有时候记忆太啰嗦,干扰了主线。他们的解决方案是两手准备:一方面提供精炼的记忆片段,这些记忆总是最新的,优先级最高;另一方面也保留原始数据块,万一记忆没覆盖到但可能相关,也能随时调取。
这种混合策略确保了信息密度刚刚好,既不会遗漏重要细节,也不会被冗余信息淹没。记忆生成时只提取绝对必要的内容,查询时再灵活组合,这样既能保证速度,又能保证质量。
细节决定成败:记忆生成的艺术
在记忆生成环节,Supermemory极其克制。他们只提取真正重要的信息,不搞过度总结,也不搞过度保留。一条记忆应该像一把精准的手术刀,直指核心,不带多余脂肪。这种克制确保了记忆系统不会膨胀成庞然大物,也确保了检索时不会淹没在噪音里。但光给记忆还不够,有时候原始文本里的细节是记忆提炼时丢失的,所以查询时还要把相关原始块也带上。
这种记忆加原文的双层供应,让大模型既有宏观认知,又有微观细节,回答问题时才能游刃有余。
实战效果:上下文质量提升一成五
这套混合搜索模式在实战中表现亮眼。Supermemory的数据显示,相比纯RAG或纯记忆检索,混合模式能把大模型的上下文质量提升10%到15%。别小看这个数字,在AI应用里,10%的提升往往意味着用户体验从能用变成好用。
更准确的上下文带来更精准的回答,更少的幻觉,更自然的对话流。这种提升不是靠堆算力实现的,而是靠架构设计的巧劲,用最优雅的方式解决了最棘手的问题。
产品化:Supermemory.ai 的诞生
把这些想法打包成一个可用的产品,就是Supermemory.ai。这不是一个概念验证,而是一个正经的记忆引擎,可以集成到任何智能体里。开发者只需要几行代码,就能给自己的AI加上真正的记忆能力。无论是客服机器人、个人助手还是创作工具,都能从中受益。
想象一下,你的用户和AI聊了一个月后,AI能记住他们所有的偏好、所有的抱怨、所有的转变,每次对话都像是和老朋友聊天,这种粘性是任何功能堆砌都无法比拟的。
不只是检索,是真正的懂你
Supermemory的核心理念是:记忆不只是检索,而是真正的个性化。检索是冷冰冰的技术动作,个性化是有温度的情感连接。当AI能主动提起你上周随口说的小目标,能察觉你语气里的疲惫,能根据你的历史偏好给出恰到好处而非 generic 的建议,用户感受到的不是一个程序在运行,而是一个伙伴在陪伴。
这种体验上的质变,正是AI下一个拐点的核心所在。
规模化部署:速度、成本、准确性的三角平衡
做一个demo容易,做成产品难。Supermemory在工程上做了大量优化,确保记忆系统能扛住真实世界的流量。200到400毫秒的响应时间要求意味着缓存策略必须做到极致,预计算和懒加载必须合理搭配。成本控制要求记忆存储和检索必须高效,不能无限制地膨胀。准确性要求更新、推导、遗忘三个机制必须精密配合,不能漏掉关键信息,也不能保留垃圾数据。
这三个目标互相牵制,Supermemory的架构设计就是在走钢丝,找到那个最优平衡点。
开发者友好:几行代码搞定记忆集成
对于开发者来说,集成Supermemory应该像集成支付网关一样简单。他们提供了清晰的API,标准化的数据格式,详细的文档。你不需要理解向量嵌入的数学原理,不需要自己搭建图数据库,不需要写复杂的遗忘逻辑。只需要告诉系统用户说了什么,系统会自动处理记忆提取、更新、推导、遗忘的全流程。查询时,一个接口返回所有相关上下文,包括用户画像、记忆片段、原始数据块。
开发者可以专注于自己的业务逻辑,把记忆这个脏活累活交给Supermemory。
未来图景:每个智能体都有超记忆
Dhravya相信,真正的记忆能力会成为每个AI智能体的标配,就像现在的互联网连接一样普遍。用户在2025年还遇到那种每次对话都从零开始的AI,会觉得不可思议,就像现在遇到不能上网的手机一样。Supermemory正在推动这个未来加速到来。
他们的目标不是做一个垂直应用,而是成为AI基础设施的一部分,让天下没有难做的个性化。当记忆成为底层能力,整个AI生态都会升级,从工具变成伙伴,从被动响应变成主动关怀。
技术背后的哲学:向人脑学习
Supermemory的架构设计处处可见对人脑的致敬。人脑不是简单的数据库,它是一个动态的、自我组织的、会遗忘的复杂系统。人脑用神经元网络存储模式,用海马体处理时间序列,用睡眠巩固记忆,用遗忘释放空间。Supermemory的向量加图架构、睡眠时推导、自动遗忘机制,都是对这种生物智慧的工程化实现。AI不需要完全复制人脑,但可以从人脑数百万年的进化中汲取灵感,少走弯路。
时间感:被忽视的超级能力
在AI系统里,时间感是最被低估的能力之一。大多数系统把数据当成静态的快照,忽略了世界在流动。Supermemory把时间作为一等公民,每条记忆都有时间戳,每次更新都有版本链,每次查询都考虑时效性。这种设计让AI能理解我现在喜欢彪马是因为上个月阿迪达斯让我失望,而不是无缘无故的变心。
时间感让记忆有了叙事性,有了因果,有了生命。
因果推理:从相关到理解
比时间感更深一层的是因果推理。RAG只能告诉你A和B经常一起出现,真正的记忆系统能告诉你A导致了B。阿迪达斯质量差导致你失望,失望导致你换品牌,换品牌导致你现在问彪马的建议。这条因果链让AI的回答有了逻辑支撑,不再是基于统计的猜测。
因果推理是智能的标志,Supermemory通过图结构显式建模这些关系,让AI从模式匹配走向真正理解。
个性化 vs 隐私:走钢丝的艺术
强大的记忆能力必然带来隐私担忧。Supermemory知道他们手里握着用户最敏感的信息:喜好、厌恶、转变、脆弱时刻。他们必须在个性化和隐私保护之间走钢丝。技术上,数据加密、访问控制、遗忘机制都是标配。产品设计上,用户应该能随时查看AI记住了什么,能删除特定记忆,能一键清空。
透明度和可控性是建立信任的基础,没有信任,再强的技术也是空中楼阁。
行业趋势:从通用到个人
AI行业正在经历从通用能力到个人化的范式转移。早期的模型追求什么都懂,现在的模型追求懂我。ChatGPT、Claude这些通用助手已经证明了基础能力的强大,下一步是把这些能力适配到每个独特的个体。记忆是这种适配的核心基础设施。没有记忆,AI永远是外来者;有了记忆,AI才能成为内在的延伸。
Supermemory押注的就是这个趋势,他们相信个性化是AI的下一个十亿美元市场。
竞争格局:记忆赛道升温
记忆这个赛道正在快速升温。除了Supermemory,还有Mem.ai这类个人知识管理工具,有Character.ai这类情感陪伴产品,有大厂们在模型层做的长上下文优化。但Supermemory的定位很独特:他们不是做终端应用,而是做底层引擎;他们不是替代向量数据库,而是增强它;他们不是追求无限上下文,而是追求精准上下文。
这种差异化让他们在生态中找到了自己的位置,成为连接模型层和应用层的桥梁。
技术债务:RAG的遗产问题
整个行业在RAG上投入了大量资源,形成了路径依赖。很多团队明知道RAG有局限,但因为已经建了向量数据库、写了检索逻辑、培训了团队,很难掉头。Supermemory面临的挑战是如何说服这些团队:你们不需要推倒重来,只需要在RAG基础上加一层记忆层。
混合搜索模式就是这种渐进式升级的答案,让现有投资不浪费,同时获得记忆能力。这种兼容性策略是打入企业市场的关键。
用户体验:从惊艳到习惯
第一次体验Supermemory驱动的AI,用户往往会感到惊艳:哇,它居然记得这个!但真正的成功是让这种惊艳变成习惯,变成理所当然。当用户习惯了AI记得一切,再遇到不记得的AI,会感到强烈的落差。Supermemory的目标就是建立这种新的用户预期,让记忆成为AI的默认配置,而不是高级功能。
这需要时间,需要教育市场,需要足够多的成功案例。
商业模式:基础设施的玩法
作为基础设施,Supermemory的商业模式很可能是按调用量收费,或者按存储的记忆量收费。他们也可以提供企业版,支持私有化部署,满足大客户的合规要求。随着生态成熟,可能会出现基于Supermemory构建的应用市场,开发者分享他们设计的记忆模板。
无论哪种模式,关键是让记忆能力像水电煤一样无处不在,又像云服务一样按需付费。
团队故事:年轻人的野心
Dhravya Shah本人就是个传奇。18到25岁的年纪,已经在旧金山创业,搞AI基础设施,优化Claude成本,迁移语音模型。这种技术深度加上产品敏感度,让Supermemory既有工程实力,又有用户视角。年轻创始人往往敢于挑战既定范式,不被传统思维束缚。Supermemory的架构选择——不追三元组图、不搞复杂遍历、坚持速度和简洁——都体现了这种初生牛犊的锐气。
开发者社区:共建记忆生态
Supermemory知道单靠一个团队做不完所有事。他们在积极建设开发者社区,分享最佳实践,开源部分工具,举办黑客松。记忆系统的应用场景无穷无尽:教育AI记住学生的学习曲线,医疗AI记住病人的病史演变,创作AI记住作者的文风偏好。每个垂直领域都有独特的记忆需求,需要社区共同探索。开放生态比封闭产品更有生命力。
技术挑战:规模化的硬仗
尽管架构优雅,Supermemory在规模化路上还有不少硬仗要打。当用户数量从千级到百万级,记忆图谱的复杂度会指数级增长。如何保证查询速度不下降?如何分布式存储图结构?如何处理冲突的更新?这些工程难题没有现成答案,需要在实战中摸索。另外,多语言支持、跨模态记忆(文本加图像加语音)、实时同步都是待攻克的堡垒。
总结:记忆是AI的下一个拐点
回顾全文,Dhravya Shah的核心论点清晰有力:AI的下一个重大转折点是真正的记忆和个性化。向量数据库和RAG只是过渡方案,它们 Stateless、无时间感、不会演化。真正的记忆需要理解时间、因果和状态变化,需要自动更新、推导和遗忘。
Supermemory通过向量加图混合架构、用户画像、混合检索三大支柱,实现了200到400毫秒内的精准记忆调用。这不仅是技术升级,更是体验革命。当每个AI智能体都拥有这种超记忆能力,人机交互将进入全新时代。
总之:
Dhravya Shah提出AI下一个拐点是真正个性化记忆系统,指出RAG缺陷在于缺乏时间感知与因果推理,Supermemory通过向量图混合架构、用户画像和混合检索实现200毫秒内精准记忆调用,为设计上下文图谱和智能体记忆系统提供了参考实现。