谷歌混合递归MoR:Transformer架构再升级


Google DeepMind的新论文探索了一种新的高级Transformers架构,称为Mixture-of-Recursions,它使用递归Transformers,每个令牌具有动态递归。

谷歌放大招:让AI学会“动脑筋”,不用再傻乎乎地算到底!
从此以后,AI不再“每个字都上24层楼”,而是“简单字走楼梯,复杂字坐电梯来回爬”!



开头先来个灵魂拷问:
你有没有遇到过这种情况?

老师布置作业,题目有简单题也有难题。  结果全班同学:不管是学霸还是学渣,每个人都必须把所有题做满10遍!  连“1+1=?”都要算10次???

这不纯属浪费生命吗!

但!这正是现在的AI大模型(比如ChatGPT这类)干的事儿!

它们用的架构叫 Transformer,听着高大上,其实干的是流水线工人的活儿:  不管你是“你好”还是“量子纠缠”,每个字都得从第一层算到第24层,一个都不能少!

于是——  
脑子简单的词:被逼着“装深沉”;  
脑子复杂的词:还没算够就被拉走!

这不就是——让小学生背微积分,博士生默写拼音??



于是,Google DeepMind怒了!
他们拍桌子大喊:“老子不玩了!换新玩法!”

于是,一个叫 Mixture-of-Recursions(递归混合) 的新架构横空出世!

名字听着像“混合专家”?错!  
它不是“换人干活”,而是“同一个员工,多干几轮”!



啥叫“递归Transformer”?  
咱们先来个比喻:

想象你有个万能乐高小机器人,只会搭一种积木模块(比如“窗户模块”)。  
以前的做法是:造24个不同的机器人,每人负责一层楼。

现在呢?  
只造6个机器人,然后让它们反复上岗:  搭完一遍,再搭一遍,再搭一遍……直到搭好为止!

这就叫“递归”——同一个模块,循环使用

好处是啥?  
✅ 机器人少,省钱!  
✅ 占地小,省地儿!  
✅ 还能搭出更复杂的城堡!



但!MoR更狠的地方来了——  
它不光让机器人循环干活,还让它们自己判断:这活儿要干几遍?

比如:

- “你好”这种简单词:机器人一看,“哦,这我熟!”——干一遍,闪人!  
- “光合作用的酶催化机制”这种词:机器人挠头,“哎哟这得再来三遍!”——继续干!

每个词自己决定要“动脑筋”几次,而不是被强迫统一加班!

这不就是传说中的——  “简单问题不内卷,复杂问题深思考”吗?!



MoR的三大绝招(装X术语):

1️⃣ 共享参数(Weight Sharing)
> ——“我们不搞24个高管,只请6个全能打工人,轮流上阵!”

省了钱,省了空间,模型变小了,跑得更快了!

2️⃣ 动态路由(Dynamic Routing)
> ——“每个词都有个‘小秘书’(router),专门决定它要不要再算一遍。”

这小秘书不是瞎猜的,是边工作边学习的,越用越聪明!

有两种“秘书风格”:

- 专家选人型:每轮结束,主管说:“你们几个继续,其他人下班!”——灵活但怕泄密(技术细节别管)。
- 自己报名型:一开始你就说好要干几轮,后面不能改——省心但不够聪明。

Google说:我们主打好用的“专家选人型”!

3️⃣ KV缓存瘦身(KV Cache Optimization)
> ——“离职员工的工位,立刻清空!不养闲人!”

以前Transformer有个大毛病:  哪怕一个词早就“算完了”,它的数据还占着显存,像“钉子户”一样赖着不走!

MoR说:谁退出,谁的数据立刻删掉!  
甚至还能“第一次算完就缓存,后面直接复用”——  
相当于“一次打卡,全天有效”,省电又省力!



实测战绩:小模型干翻大模型!

- 一个1.18亿参数的小型MoR模型,  
  竟然干翻了3.15亿参数的传统Transformer!
- 训练用的计算量一样,但内存少了25%
- 推理速度最高能快2倍以上

这就像——  
一个高中生,用更少的草稿纸,解出了清华学霸的题,还更快交卷!



对比一下:MoR vs MoE(混合专家)

| 项目 | MoE(混合专家) | MoR(递归混合) |
|------|------------------|------------------|
| 思路 | 搞一堆专家,谁懂谁上 | 一个专家,多想几轮 |
| 比喻 | 点菜:选川菜师傅炒辣的,粤菜师傅蒸鱼 | 炖汤:小火慢炖3小时,还是1小时? |
| 扩展方向 | <strong>加宽</strong>(更多专家) | <strong>加深</strong>(更多思考) |
| 本质 | “人多力量大” | “一个人反复琢磨” |

所以MoE是“横向发展”,MoR是“纵向深挖”!



⚠️ 当然,MoR也不是完美神仙

1. “自己报名型”路由太死板:像定闹钟做饭,饭没熟就停火,糊了。
2. 缓存复用会降点准确率:省电模式,画质有点糊。
3. 训练完就不能改了:路由策略“刻进DNA”,想调?没门!
4. 小模型上不太行:1.35亿以下的,玩不转。
5. 工程难度高:你想直接扔进HuggingFace跑?别做梦了,得自己动手改代码!



总结:这不是升级,是“思想革命”!

以前的AI:  
> “所有字!统统给我爬24层楼!一个不准偷懒!”

现在的MoR:  
> “兄弟,你觉得你够了吗?够了就走,不够咱再绕一圈。”

这不只是技术进步,  
这是让AI学会了‘思考自己要不要思考’

以前是“蛮力计算”,  现在是“智能循环”!



未来展望(吹一波):

如果MoR真能普及——  
✅ 手机上的AI会更流畅!  
✅ 笔记本也能跑大模型!  
✅ 电费账单会变少!  
✅ AI不再只是“巨无霸”,也能是“小钢炮”!

说不定哪天,你手机里的Siri会说:  
> “这个问题有点难……容我多想两轮。”

然后沉默三秒,说出答案——  
那一刻,它真的“像人一样思考”了。



最后一句暴言:
> Transformer统治AI八年了,也该歇歇了!  
> MoR不一定能取而代之,但它告诉我们:  
> AI不需要一直“堆人头”,也可以“会动脑”。


结语(食堂风格):
这年头,  
卷的不是参数,是智商。  
拼的不是大小,是聪明。

让简单的词少干活,让复杂的词多动脑——  这才是AI的“人性化”加班制度!



友情提示:  
本文由“AI界说书人”现场演绎,  如有雷同,那是Google DeepMind先说的,  我抄的!(完)


适合转发朋友圈文案:  
> “以后AI也会‘摸鱼’了?  
> 简单问题划水过,复杂问题猛思考!  
> Google新模型MoR:让AI学会‘动脑筋’,而不是‘傻算’!”  

转发语:Transformer的时代,要变天了!

查看可视化说明详情:https://www.youtube.com/watch?si=M6xxbtczSf_TEEYR&v=GWqXCgd7Hnc
论文:https://arxiv.org/abs/2507.10524



极客辣评

太棒了!这东西看着特别像我之前搞的‘自己重复用’那一套——就是让AI模型里的某些部分多跑几遍,像个回旋楼梯一样反复上上下下。

但我那时候瞎折腾,代码写得乱七八糟,一运行就出问题,搞得我又头疼又心累。

现在谷歌这个新方法,不但想法跟我差不多,还更聪明、更容易放大使用,还不容易崩。

所以我现在只有一个愿望:赶紧把我之前那堆‘土法炼丹’的代码,直接扔进垃圾桶!因为它已经被更牛的版本取代了,挺好!



真不是啥新鲜玩意儿——让神经网络‘重复使用同一层’这招,连GPT-3都还没出生时,就有人提了! 就像你买不起新手机,但可以把旧手机刷个系统,多用两年,省吃俭用过日子。

现在你把这种‘重复用层 ’的方法,
再配上现在火得不行的混合专家(MoE) ——
就像给AI请了一堆兼职顾问,谁懂谁上,还不占工位!

那组合起来是什么?
是——
花小钱办大事的王炸组合拳!
计算省了,显存省了,速度还快了,
简直是“AI界的拼多多plus”:便宜有好货,还能跑满血!

但为啥大厂之前不care?
因为这研究太‘实用’了,不够‘炫’!

大公司最爱干啥?
发论文,堆参数,喊口号:
‘我们模型有1000亿参数!数字比你大!’
——就像比谁家孩子考试分数高,根本不管是不是熬夜刷题考出来的。

可现在呢?
模型越堆越大,显卡快烧了,电费比工资还高……
“多加几层就完事了 ”这套老办法,
终于——
走到头了!撞南墙了!没电了!

所以现在大家才回过头来想:“哎,咱们是不是该省着点花了?”以前拼‘谁更大’,现在拼‘谁更聪明’。 
这不就轮到这种‘会过日子’的技术出头了吗?