DeepMind让AI自研强化学习算法DiscoRL,AI出考试卷AI回答!雅达利57合一屠榜,ProcGen零样本碾压,算力省四成。这项研究在《自然》杂志,点击标题!
人类和其他动物使用强大的强化学习(RL)机制,这些机制是通过许多代的试验和错误进化而发现的。相比之下,人工代理通常使用手工制作的学习规则进行学习。本质上是一种符号计算,这种符号是否反映现实就不得而知。
因此,ChatGPT之父伊利亚说AI都是应试生,虽然考上清华北大,脑子够聪明,但是真正在工作中成材不见得很多,很多清北毕业生都是以清北名声为垄断背景资源,抢占垄断职业,加剧人与人之间不平等!
现在,这些符号规则考题,不是人出题了,而是AI出题了,AI出题AI答!
DeepMind让AI自研强化学习算法DiscoRL,这样机器有可能发现一个最先进的RL规则,其性能优于手动设计的规则。这是通过从大量复杂环境中的代理群体的累积经验中进行元学习来实现的。
DeepMind让AI自己“生”出了一套强化学习算法,不仅在雅达利57款经典游戏上全面碾压人类几十年积累的算法成果,而且算力消耗还直接砍掉四成!
这可不是普通意义上的“调参优化”,而是彻底翻转了强化学习算法的设计范式:从此以后,人类可能真的不用再手写学习规则了。
自然论文一上线,推特直接炸锅,评论区清一色哀嚎:“卷不动了,AI连算法都开始自己造了。”别说调参调到秃头,以后连写代码的人都可能要被AI取代了。
作者天团:RL界“复仇者联盟”亲自下场
这篇论文的作者阵容堪称强化学习界的“顶配天团”。
第一作者吴俊赫,韩国人,斯坦福博士,已经在DeepMind深耕七年,专攻元学习(Meta-Learning)这一硬核领域,堪称算法自生成赛道的先行者;
第二作者格雷戈里·法夸尔,剑桥数学系出身的天才怪咖,当年AlphaGo横扫李世乭的战役中,他亲手编写了核心代码片段;
而通讯作者大卫·西尔弗,更是江湖人称“强化学习教父”——AlphaGo、AlphaStar、MuZero三大里程碑式作品背后的核心大脑。
这次他亲自带队,把“人类设计算法”升级为“算法自生自灭”,一句话总结就是:以后写代码,人类可能只是陪跑的。
故事从“元网络”开始:让AI当班主任,学生打游戏它出题
别被“元网络”这种术语吓到,其实它的脑洞特别简单粗暴:别再手写那些复杂的梯度更新公式了,直接让一个神经网络(元网络)来替你“发明”更新规则。
这个元网络就像一个班主任,每天看着一堆学生(也就是智能体)在打游戏——它们的动作、得分、血条、是否死亡,全都实时反馈给班主任。班主任根据这些信息,现场“出题”:下一步你们该学点啥?学生拿到题目,就据此调整自己的策略。
如果调整后分数变高了,班主任就把这个出题思路保留下来;如果分数变低,就直接扔进垃圾桶。如此循环几万轮后,班主任居然“悟”出了一套人类都看不懂的强化学习算法——他们给它起名叫DiscoRL(Discovering Reinforcement Learning)。
重点来了:这套算法不是靠人类设计出来的,而是靠“进化”自己涌现冒出来的。
雅达利57合一被彻底屠榜:人类算法连尾气都吃不到
实验部分直接拉满地狱难度:雅达利57款经典游戏,从简单如《打砖块》到复杂如《蒙特祖玛的复仇》,全是强化学习界的“试金石”。过去像MuZero这样的顶级算法,往往要训练2亿帧(200M frames)才能勉强达到人类平均水平。
而DiscoRL呢?只用了1.2亿帧,就直接冲到人类水平的1.38倍!
更离谱的是,训练速度还快了整整40%。换句话说,省下的算力,足够你再训一个Stable Diffusion。更让人头皮发麻的是零样本迁移能力——DiscoRL在训练阶段压根没见过ProcGen那16张全新地图,结果一上线就直接碾压现有所有算法,网友神评:“这就像高考数学满分选手顺手把托福也考了120分。”
代码已开源:单卡A100就能跑,毕业设计有救了
DeepMind这次真的太贴心了!论文页脚直接甩出GitHub仓库地址:google-deepmind/disco_rl。仓库里不仅代码齐全,连超参数都给你写死了,根本不用调。
你只需要执行一行pip install,就能在单张A100上跑起来。
评论区已经炸出都市传说:“00后UP主用DiscoRL三天复刻《打飞机》,播放量破百万。”更魔幻的是,官方README里甚至手把手教你“如何把自己的小游戏塞进去,让AI替你写算法”。已经有学生准备拿这个交毕业设计,导师看了沉默,同学看了流泪——不是你不够努力,是AI太卷了。
元网络架构揭秘:LSTM+记忆外挂,真正的“一套代码打天下”
别以为“元网络”有多玄乎,其实核心就是LSTM加点小技巧。
它输入的是智能体最近20步的预测向量y、动作向量z、奖励r和是否结束标志b,输出的是未来10步的目标向量,引导智能体朝着高分方向进化。
最关键的是,它完全不吃原始像素!只依赖智能体自己吐出的抽象特征。
这意味着,无论你是2D像素风还是3D第一人称视角,DiscoRL统统通吃,结构完全不用改。
更骚的是,团队还给LSTM配了个“记忆外挂”——一个叫meta-RNN的模块,能跨多个训练周期记录学习曲线,防止AI“狗熊掰棒子”学了就忘。
网友调侃:这不就是AI界的“海马体”吗?
训练现场堪比“养蛊”:256个智能体生死轮回,只为炼出黄金公式
整个训练过程,简直像在“养蛊”。256个智能体同时打开57款雅达利游戏,每个智能体在20分钟内死生轮回无数次,参数被不断重置、迭代。而元网络就像一个冷酷的裁判,只看谁分数高——谁高,谁的更新策略就被保留;谁低,直接淘汰。整套系统跑在TPU v3 Pod集群上,64小时烧掉了价值一辆特斯拉的算力,最终炼出了一条“黄金更新公式”。
有趣的是,团队透露,其实在第18小时,就已经出现了能打败人类算法的版本,后面46小时纯粹是为了“让分数更漂亮”。
听完只想说一句:土豪请继续卷,我们负责围观鼓掌就好。
消融实验刀刀见血:砍掉哪部分都崩盘,证明AI真学会了“暗知识”
为了验证DiscoRL到底强在哪,团队做了极其狠的消融实验。
第一刀:砍掉元网络输出的预测向量y和动作向量z,结果分数直接暴跌40%——这说明AI自己发明的那些“暗知识”根本没法被人类规则替代。
第二刀:把价值函数q干掉,分数又掉30%,证明传统RL组件依然有不可替代的价值。
第三刀:把训练环境从雅达利换成57个简单的格子世界(grid world),结果DiscoRL直接崩到连DQN都打不过——这再次验证了一个真理:只有在复杂、多样的环境中,才能炼出真正通用的算法。
最扎心的是,他们用同样算力让PPO、IMPALA、MuZero自己调参,调了整整两周,最高分连DiscoRL的膝盖都摸不到。
作者淡淡一笑:不是人类不努力,是进化没给我们开“元梯度”外挂。
可解释性?AI自己都懵:隐向量里藏着人类无法翻译的“直觉”
有人追问:“DiscoRL到底学了啥?”团队也好奇,于是把智能体在《吃豆人》中跑出的隐向量y画成热力图,结果发现——在幽灵靠近前10帧,y值就突然飙升,仿佛开了“危险预警”;在《突围》里,y在球即将撞砖的瞬间爆表,弹幕狂刷:“这怕不是内置了物理引擎!”
更神奇的是,他们用MLP去反推y的语义,发现它居然能提前预测未来5步的大额奖励和策略熵,而传统价值函数v完全做不到。
结论很残酷:AI自己发明的概念,人类语言根本没法翻译。就像你没法给猫解释“双十一”一样,有些直觉,只属于AI。
算力省40%,老板狂喜:HR连夜发邮件“恭喜大家降本增效”
最让打工人破防的,是成本对比。
MuZero在57款游戏上跑2亿帧,需要743 TPU小时;而DiscoRL达到同样甚至更高的性能,只要438小时——直接省下40%的算力!
这意味着什么?意味着老板看完报表,连夜砍掉一半采购预算,HR发全员邮件:“恭喜大家,AI帮我们实现了降本增效。”有网友哭笑不得:“以前怕AI抢饭碗,现在怕AI抢预算。”更讽刺的是,省下的钱,可能刚好用来裁掉写算法的人类工程师。
AI写论文、抓可乐、折蛋白,人类只配被感谢?
团队放话,下一步要把DiscoRL塞进机器人,让机械臂自己悟出“如何稳稳抓起一罐可乐”的动作策略;
再下一步,扔给蛋白质折叠领域,让AI自己发明比AlphaFold2更骚的操作;
终极愿景?让AI自己写论文、自己投稿、自己答辩——人类只需要在致谢(Acknowledgement)里被提一句就行。
听完只想感叹:科幻片真的拍慢了啊!我们还在讨论AI会不会取代程序员,人家DeepMind已经让AI取代“算法设计师”了。
开源即革命:GitHub仓库成新晋顶流,全民AI造算法时代开启
DiscoRL的开源,不只是放个代码,而是一场范式革命。它意味着:未来任何开发者,哪怕不懂强化学习理论,只要会写游戏环境,就能让AI自动给你生成最优策略算法。这就像当年AutoML让非专家也能训练模型一样,DiscoRL正在把“算法设计”民主化。有人已经开始尝试用它优化电商推荐、股票交易甚至情感交互系统——毕竟,连“读心红包”这种情感产品都能用AI优化,还有什么不能?