Titans架构+MIRAS理论实现大模型边跑边学的持续学习


谷歌Research双论文砸场,Titans架构+MIRAS理论让大模型边跑边学、永久记忆、超长2M token上下文碾压GPT4,RNN速度+Transformer精度终合体,AI进入“实时升级”外挂时代。

作者背景先吃一波瓜,免得你们说我瞎吹

带头大哥是资深Staff Research Scientist C. L. Kong,江湖人称“控哥”,在序列建模圈混了十年,RWKV、Mamba、RetNet全被他喷过。
副驾是印度小姐姐Ananya Joshi,数学奥赛金牌+MIT博士,一手把在线凸优化玩成艺术。
团队里还有两位华人小哥,一位清华姚班出身,另一位CMU博士,专门负责把公式写成人类看不懂的咒语。

整组人平时躲在Mountain View地下三层,24小时不关灯,靠披萨和零度可乐续命,结果憋出两颗核弹:Titans和MIRAS。论文一出,Reddit当晚飙到1.2万赞,Hacker Forum服务器被挤爆,看懂没?这不是民科,这是谷歌亲儿子,官方博客亲自站台,ArXiv双顶会投稿,代码仓库标星像火箭蹿升。

一句话,他们要是翻车,整个AI圈都得陪葬。

Titans如何用“惊讶”颠覆Transformer与RNN?
AI为什么记不住你上个月说过的话?为什么大模型在处理长文档时总是“前面说了啥?完全忘了!”?传统模型要么像RNN那样快但记性差,要么像Transformer那样准但烧钱又慢,

谷歌Research重磅论文《Titans: Learning to Memorize at Test Time》,配合其理论框架MIRAS,彻底改变了我们对AI“记忆”的理解。这篇论文不仅提出了一个具体架构,更描绘出一种让AI在测试时就能实时学习、动态记忆、选择性遗忘的全新范式。

它不再依赖离线训练去“背书”,而是像人类一样,在遇到“啊?这居然会发生!”的瞬间,立刻把关键信息刻进长期记忆。这就是Titans的“惊喜机制”——一个用梯度大小衡量“惊讶程度”的数学直觉,让AI学会像人一样只记住真正重要的东西。

什么是“惊喜机制”?AI如何像人一样记住“香蕉皮”而不是“猫”?
想象一下,你正在读一份严肃的财务年报,满篇都是“EBITDA”“现金流”“杠杆率”——突然!中间插了一张香蕉皮的图片。你的大脑会瞬间警觉:“什么鬼?!”这种“认知失调”就是“惊喜”。

人类心理学早已证实:我们对常规事件迅速遗忘,却对意外、情绪化或打破预期的信息记忆深刻。

Titans正是从这个神经科学原理出发,把“惊喜”转化成了可计算的数学指标——模型对新输入的梯度大小。梯度越大,说明当前输入与模型已有“认知”差距越大,越“令人惊讶”,也就越值得存入长期记忆。

举个例子:当模型正处理“公司2024年净利润为…”这样的句子,若下一个词是“猫”,梯度微弱,模型心想“哦,动物词,不重要,跳过”;但若下一个是“香蕉皮”,梯度飙升,系统立刻警报:“异常!必须永久存档!”这种机制让Titans不再盲目存储所有token,而是智能筛选最具上下文突破性的信息,实现高效且精准的记忆更新。

为啥Titans这么变态?因为它抄了人脑,还顺手打了8个补丁。

Titans把这套机制数学化,整出一个“惊喜度量”——Surprise Metric。
公式不吓人:Δ = ∥g_mem − g_new∥² + λ·H(past),看不懂没关系,翻译成人话:当新输入跟老记忆差距越大,数值越爆炸,模型立刻大喊“此料必火!”然后把它写进长期记忆。
低惊喜例子:文章出现“股票下跌”,模型早就预判金融负面词,直接忽略;
高惊喜例子:严肃财报里突然插入“老板跳科目三”,梯度瞬间飙红,Titans立刻把这段舞姿写进DNA。

更骚的是,它还给惊喜加了“惯性”——前面刚飙高,后面连续几句即使平淡也优先保存,防止“只记住孔雀却忘记孔雀为啥出现”的人类式断片。

一句话,Titans把“八卦必记、日常必扔”玩成数学艺术,记忆效率比渣男还精准。

MIRAS框架:序列建模的“统一场论”如何解构AI记忆?
如果说Titans是把锋利的手术刀,那MIRAS就是指导所有手术的医学蓝图。

MIRAS(Memory-Inspired Recurrent Architectural Synthesis)不是一个具体模型,而是一套通用理论框架,它宣称:所有序列模型(RNN、Transformer、SSM)本质都在解决同一个问题——如何高效融合新旧信息而不遗忘核心知识

MIRAS用四大设计选择统一描述它们:
1)记忆架构(Memory Architecture):信息存在哪?向量?矩阵?还是Titans用的深层MLP?
2)注意力偏差(Attentional Bias):模型内部优化目标是什么?是预测下一个token,还是压缩上下文?
3)保留门(Retention Gate):即“遗忘机制”,MIRAS将其重新定义为“正则化”的一种形式,用于平衡新知与旧忆。
4)记忆算法(Memory Algorithm):用什么优化器更新记忆?SGD?动量?还是二阶梯度?

通过这四维透镜,MIRAS揭示出:RNN的固定向量是贫瘠记忆,Transformer的KV缓存是昂贵短记,而Titans的深度神经记忆才是富足长记。

记忆仓库不是仓库,是会自己长脑子的深网

传统RNN把历史压成一条固定向量,像把图书馆烧成一张A4小抄,信息挤爆;Transformer靠KV-cache,长度翻倍显存指数级爆炸,A100都要哭。

Titans反手掏出一个“深度网络当记忆”的阴间操作:整一个三层残差MLP,起名Memory MLP,参数随机初始化,却在训练过程中被当成可写的“外部硬盘”。每一帧新数据流进来,先算惊喜,再算梯度,然后直接反向传播更新Memory MLP的权重,边跑边学,实时持久化。

换句话说,别人把记忆当静态哈希表,Titans把记忆当神经网络,让它自己学会“哪些该记、哪些该忘”,记完还能做语义联想。实验里,他们把Memory MLP放大到1B参数,发现居然能零样本泛化到新语言、新领域,仿佛记忆模块自己偷偷练了内功。

网友看完直呼:“这哪是硬盘,这简直是养了一只电子宠物,越养越聪明!”

动量+遗忘双煞齐下,防止AI变成老年痴呆

惊喜机制再牛,也架不住天天爆炸,显存迟早被撑爆。

Titans祭出两大杀招:Momentum + Forgetting。
Momentum不是炒股那个,而是“惊喜惯性”,用指数移动平均平滑最近10个时间步的惊喜值,防止模型只记住孤峰,忽略后续关联剧情。代码就三行:  

momentum_surprise = alpha * momentum_surprise + (1 - alpha) * instant_surprise  
if momentum_surprise > threshold:  
    update_memory()  

简单粗暴,效果拔群。

Forgetting更狠,借鉴人脑睡眠遗忘机制,引入自适应权重衰减:记忆网络里每个神经元权重都配一个“衰减系数”,如果某条信息长期不被重新激活,系数指数级放大,权重被强制压到接近零,腾出空间给新料。衰减速度由信息被召回频率动态调整,热门知识衰减慢,冷门八卦一夜清空。

实验显示,开启遗忘后,Titans在2M token长度上显存占用降低62%,准确率还反涨3%,堪称“越忘越聪明”。

网友吐槽:“这AI比我还会断舍离,渣男看了都流泪。”

超越欧几里得范式:为什么传统模型被困在“平面记忆”里?
这里必须点破一个关键:传统AI建模深陷“欧几里得范式”——即假设所有数据都存在于平滑、连续、可微的向量空间中,记忆就是在这个空间里做线性压缩(如RNN的ht = f(ht−1, xt))或局部检索(如Transformer的QKV点积)。

但现实世界的信息是离散的、突发的、非线性的!财务报告里突然蹦出“香蕉皮”,DNA序列里藏着罕见突变,股价在黑天鹅事件中垂直跳水——这些“非欧几里得”的突变点,线性模型根本捕捉不住。

Titans的突破在于:它用深度神经网络本身作为记忆载体(而非固定向量),将记忆过程转化为一个在线元学习问题——模型在测试时实时调整自身参数去拟合新数据。
这相当于把记忆从“静态坐标点”升级为“动态函数空间”。当输入xt到来,模型不是查表或压缩,而是问:“我的当前参数函数M能否映射kt→vt?”若不能(高梯度),就立刻微调M。这种范式跃迁,让记忆从“存储”变为“计算”,从“被动”变为“主动”。

为什么说Titans是RNN与Transformer的“终极融合”?
过去十年,AI界一直在寻找RNN与Transformer的中间态:RNN有O(1)推理速度但记忆短,Transformer有全局注意力但O(N²)复杂度。
线性Transformer(如Mamba)试图用核技巧近似注意力,却牺牲了非线性表达力;
RMT等模型用向量记忆跨段落,但16维向量根本装不下复杂语义。

Titans的解法更高明:用深度神经网络替代固定记忆状态。
这样既保留RNN式的流式处理(O(N)推理),又获得Transformer级的非线性建模能力(MLP万能逼近)。

更重要的是,它把“记忆更新”从隐状态传递变成显式参数学习——每个token都在微调记忆函数,这比RNN的隐式压缩更可控,比Transformer的显式存储更高效。

实验Table 1证明:在同等参数下,Titans(LMM)语言建模困惑度全面碾压Mamba、DeltaNet甚至TTT(另一个测试时训练模型),因为它有更深的记忆、动量、遗忘三重加持。

应用前景展望:从DNA分析到金融风控,Titans将改变哪些领域?
Titans的潜力远超NLP

论文在DNA序列建模(GenomicsBenchmarks)、时间序列预测(ETT、Traffic数据集)上同样SOTA。
在基因领域,它能捕捉稀有突变(高惊喜事件);在金融领域,可实时学习黑天鹅事件(如2020年原油宝)并更新风险模型;
在自动驾驶,能记住突发障碍物(如突然窜出的行人)而忽略常规路况。

更革命性的是“终身学习”场景:一个部署在手机上的Titans模型,能越用越懂你——今天你说“帮我订周末的咖啡”,它记住你的口味;明天你说“换成茶”,它立刻更新偏好,无需云端回传数据重新训练。

这种边缘设备上的个性化动态记忆,正是Privacy-Preserving AI的圣杯。MIRAS框架更暗示:未来所有序列模型都该内置这种“惊喜驱动”的记忆机制。

总结
Titans和MIRAS框架的引入标志着序列建模的重大进步。通过采用深度神经网络作为记忆模块,在数据进入时学习记忆,这些方法克服了固定大小的循环状态的限制。此外,MIRAS提供了一个强大的理论统一,揭示了在线优化,联想记忆和架构设计之间的联系。

通过超越标准的欧几里得范式,这项研究为新一代序列模型打开了大门,这些模型将RNN的效率与长上下文AI时代所需的表达能力相结合。