谷歌混合递归MoR：Transformer架构再升级

Google DeepMind的新论文探索了一种新的高级Transformers架构，称为Mixture-of-Recursions，它使用递归Transformers，每个令牌具有动态递归。

谷歌放大招：让AI学会“动脑筋”，不用再傻乎乎地算到底！
从此以后，AI不再“每个字都上24层楼”，而是“简单字走楼梯，复杂字坐电梯来回爬”！

开头先来个灵魂拷问：
你有没有遇到过这种情况？

老师布置作业，题目有简单题也有难题。结果全班同学：不管是学霸还是学渣，每个人都必须把所有题做满10遍！连“1+1=？”都要算10次？？？

这不纯属浪费生命吗！

但！这正是现在的AI大模型（比如ChatGPT这类）干的事儿！

它们用的架构叫 Transformer，听着高大上，其实干的是流水线工人的活儿：不管你是“你好”还是“量子纠缠”，每个字都得从第一层算到第24层，一个都不能少！

于是——
脑子简单的词：被逼着“装深沉”；
脑子复杂的词：还没算够就被拉走！

这不就是——让小学生背微积分，博士生默写拼音？？

于是，Google DeepMind怒了！
他们拍桌子大喊：“老子不玩了！换新玩法！”

于是，一个叫 Mixture-of-Recursions（递归混合） 的新架构横空出世！

名字听着像“混合专家”？错！
它不是“换人干活”，而是“同一个员工，多干几轮”！

啥叫“递归Transformer”？
咱们先来个比喻：

想象你有个万能乐高小机器人，只会搭一种积木模块（比如“窗户模块”）。
以前的做法是：造24个不同的机器人，每人负责一层楼。

现在呢？
只造6个机器人，然后让它们反复上岗：搭完一遍，再搭一遍，再搭一遍……直到搭好为止！

这就叫“递归”——同一个模块，循环使用！

好处是啥？
✅ 机器人少，省钱！
✅ 占地小，省地儿！
✅ 还能搭出更复杂的城堡！

但！MoR更狠的地方来了——
它不光让机器人循环干活，还让它们自己判断：这活儿要干几遍？

比如：

- “你好”这种简单词：机器人一看，“哦，这我熟！”——干一遍，闪人！
- “光合作用的酶催化机制”这种词：机器人挠头，“哎哟这得再来三遍！”——继续干！

每个词自己决定要“动脑筋”几次，而不是被强迫统一加班！

这不就是传说中的—— “简单问题不内卷，复杂问题深思考”吗？！

MoR的三大绝招（装X术语）：

1️⃣ 共享参数（Weight Sharing）
> ——“我们不搞24个高管，只请6个全能打工人，轮流上阵！”

省了钱，省了空间，模型变小了，跑得更快了！

2️⃣ 动态路由（Dynamic Routing）
> ——“每个词都有个‘小秘书’（router），专门决定它要不要再算一遍。”

这小秘书不是瞎猜的，是边工作边学习的，越用越聪明！

有两种“秘书风格”：

- 专家选人型：每轮结束，主管说：“你们几个继续，其他人下班！”——灵活但怕泄密（技术细节别管）。
- 自己报名型：一开始你就说好要干几轮，后面不能改——省心但不够聪明。

Google说：我们主打好用的“专家选人型”！

3️⃣ KV缓存瘦身（KV Cache Optimization）
> ——“离职员工的工位，立刻清空！不养闲人！”

以前Transformer有个大毛病：哪怕一个词早就“算完了”，它的数据还占着显存，像“钉子户”一样赖着不走！

MoR说：谁退出，谁的数据立刻删掉！
甚至还能“第一次算完就缓存，后面直接复用”——
相当于“一次打卡，全天有效”，省电又省力！

实测战绩：小模型干翻大模型！

- 一个1.18亿参数的小型MoR模型，
竟然干翻了3.15亿参数的传统Transformer！
- 训练用的计算量一样，但内存少了25%！
- 推理速度最高能快2倍以上！

这就像——
一个高中生，用更少的草稿纸，解出了清华学霸的题，还更快交卷！

对比一下：MoR vs MoE（混合专家）

| 项目 | MoE（混合专家） | MoR（递归混合） |
|------|------------------|------------------|
| 思路 | 搞一堆专家，谁懂谁上 | 一个专家，多想几轮 |
| 比喻 | 点菜：选川菜师傅炒辣的，粤菜师傅蒸鱼 | 炖汤：小火慢炖3小时，还是1小时？ |
| 扩展方向 | <strong>加宽</strong>（更多专家） | <strong>加深</strong>（更多思考） |
| 本质 | “人多力量大” | “一个人反复琢磨” |

所以MoE是“横向发展”，MoR是“纵向深挖”！

⚠️ 当然，MoR也不是完美神仙

1. “自己报名型”路由太死板：像定闹钟做饭，饭没熟就停火，糊了。
2. 缓存复用会降点准确率：省电模式，画质有点糊。
3. 训练完就不能改了：路由策略“刻进DNA”，想调？没门！
4. 小模型上不太行：1.35亿以下的，玩不转。
5. 工程难度高：你想直接扔进HuggingFace跑？别做梦了，得自己动手改代码！

总结：这不是升级，是“思想革命”！

以前的AI：
> “所有字！统统给我爬24层楼！一个不准偷懒！”

现在的MoR：
> “兄弟，你觉得你够了吗？够了就走，不够咱再绕一圈。”

这不只是技术进步，
这是让AI学会了‘思考自己要不要思考’！

以前是“蛮力计算”，现在是“智能循环”！

未来展望（吹一波）：

如果MoR真能普及——
✅ 手机上的AI会更流畅！
✅ 笔记本也能跑大模型！
✅ 电费账单会变少！
✅ AI不再只是“巨无霸”，也能是“小钢炮”！

说不定哪天，你手机里的Siri会说：
> “这个问题有点难……容我多想两轮。”

然后沉默三秒，说出答案——
那一刻，它真的“像人一样思考”了。

最后一句暴言：
> Transformer统治AI八年了，也该歇歇了！
> MoR不一定能取而代之，但它告诉我们：
> AI不需要一直“堆人头”，也可以“会动脑”。

结语（食堂风格）：
这年头，
卷的不是参数，是智商。
拼的不是大小，是聪明。

让简单的词少干活，让复杂的词多动脑—— 这才是AI的“人性化”加班制度！

友情提示：
本文由“AI界说书人”现场演绎，如有雷同，那是Google DeepMind先说的，我抄的！（完）

适合转发朋友圈文案：
> “以后AI也会‘摸鱼’了？
> 简单问题划水过，复杂问题猛思考！
> Google新模型MoR：让AI学会‘动脑筋’，而不是‘傻算’！”

转发语：Transformer的时代，要变天了！

查看可视化说明详情：https://www.youtube.com/watch?si=M6xxbtczSf_TEEYR&v=GWqXCgd7Hnc
论文：https://arxiv.org/abs/2507.10524

极客辣评

太棒了！这东西看着特别像我之前搞的‘自己重复用’那一套——就是让AI模型里的某些部分多跑几遍，像个回旋楼梯一样反复上上下下。

但我那时候瞎折腾，代码写得乱七八糟，一运行就出问题，搞得我又头疼又心累。

现在谷歌这个新方法，不但想法跟我差不多，还更聪明、更容易放大使用，还不容易崩。

所以我现在只有一个愿望：赶紧把我之前那堆‘土法炼丹’的代码，直接扔进垃圾桶！因为它已经被更牛的版本取代了，挺好！

真不是啥新鲜玩意儿——让神经网络‘重复使用同一层’这招，连GPT-3都还没出生时，就有人提了！就像你买不起新手机，但可以把旧手机刷个系统，多用两年，省吃俭用过日子。

现在你把这种‘重复用层 ’的方法，
再配上现在火得不行的混合专家（MoE） ——
就像给AI请了一堆兼职顾问，谁懂谁上，还不占工位！

那组合起来是什么？
是——
花小钱办大事的王炸组合拳！
计算省了，显存省了，速度还快了，
简直是“AI界的拼多多plus”：便宜有好货，还能跑满血！

但为啥大厂之前不care？
因为这研究太‘实用’了，不够‘炫’！

大公司最爱干啥？
发论文，堆参数，喊口号：
‘我们模型有1000亿参数！数字比你大！’
——就像比谁家孩子考试分数高，根本不管是不是熬夜刷题考出来的。

可现在呢？
模型越堆越大，显卡快烧了，电费比工资还高……
“多加几层就完事了 ”这套老办法，
终于——
走到头了！撞南墙了！没电了！

所以现在大家才回过头来想：“哎，咱们是不是该省着点花了？”以前拼‘谁更大’，现在拼‘谁更聪明’。
这不就轮到这种‘会过日子’的技术出头了吗？

谷歌混合递归MoR：Transformer架构再升级

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道