谷歌AGI王炸:SIMA2在3D游戏中自学+自循环进化!妥妥的世界模型来了


Gemini心脏+自循环进化,600+技能秒变十万加;零样本闯陌生宇宙,键盘鼠标秀成精;官方限量内测,游戏主播、机器人lab集体抢号。

一颗来自伦敦的“AI核弹”:DeepMind凌晨发博客,标题低调得像个补丁包,点进去一看:SIMA 2!去年那个只会“左转、爬梯、开地图”被全网嘲“傻萌”的小AI,一年不到直接开挂,现在不仅能听懂人类最离谱的自然语言指令,还能在从未见过的3D游戏世界里自己推理、自己规划、自己动手,甚至边干活边跟你唠嗑:“兄弟,我瞅瞅包里有没有燧石,没有咱先撸树。”

先给吃瓜群众科普一下,这篇论文背后的作者天团到底有多离谱:

第一排署名随便拎一个出来都是AI圈顶流:杰夫·克鲁恩(Jeff Clune),前OpenAI的核心研究员,现在是DeepMind“自主进化”方向的扛把子,专门研究“AI能不能自己生自己、自己教自己”;

德米斯·哈萨比斯(Demis Hassabis),AlphaGo之父、英国国宝级科学家、被女王授勋的AI战略家,DeepMind的灵魂人物,没有之一;

还有蕾娅·哈德塞尔(Raia Hadsell),机器人学习领域的女战神,连美国国防高级研究计划局(DARPA)的评审专家见她都主动递水。

更感人的是,文末特别致敬两位英年早逝的AI科学家——菲利克斯·希尔(Felix Hill)和法比奥·帕尔多(Fabio Pardo),团队把这篇论文献给他们,弹幕瞬间被“泪目”刷屏。这支队伍要是组个足球俱乐部,转会费能买下半个英超,而且个个都是技术天花板+人文情怀拉满。



我们先回溯一下去年的主角——SIMA 1。

2024年刚发布时,官方说得很含蓄:“能在600个技能中理解自然语言指令。” 但实测惨不忍睹:
在开放世界游戏《英灵神殿》(Valheim)里让它盖房子,它把墙板当门框,活活把NPC堵死在厕所里;
在《无人深空》里采矿,它对着一块普通石头疯狂敲打十分钟,敲坏三把镐,结果啥也没挖出来。

网友吐槽:“这哪是AI,分明是‘爱’——又菜又爱玩。”
但DeepMind当时就放话:别急,我们只是先把“语言→像素→键盘”这条神经链跑通。

果然,一年蛰伏,SIMA 2直接把键盘鼠标玩成钢琴,还是自弹自唱那种,手速稳如钻石段位,脑子灵活得像开了外挂。



那么,SIMA 2到底强在哪?核心秘密就在于——它移植了Gemini大模型的心脏!

新架构官方叫“Gemini-SIMA Fusion”,说人话就是三层架构:
第一层,把Gemini Pro 1.5塞进决策中枢,负责高级理解、任务推理和嘴炮输出;
第二层,外挂一个视觉-动作Transformer模型,只看游戏画面像素,输出到键盘鼠标的微操指令;
第三层,在语言、视觉、动作之间架起一座“思维令牌”(thought tokens)桥梁,实现三流合一。

最恐怖的是延迟——端到端响应压到200毫秒以内,比某些人回女神微信还快!

训练方式更离谱:真人打游戏视频只占30%,剩下70%的数据全是Gemini自己看回放生成的“伪标签”——相当于AI给自己出题、自己批改、自己背重点,然后再去考试,结果还考了满分。

这操作,妥妥的学神天花板,教育局看了都得发奖状。

--
官方放了三段实机演示,我逐帧给你们扒细节。

第一段在维京生存游戏《ASKA》里,人类输入指令:“给我搞一顿烤肉宴,要鹿排+蘑菇汤,再盖个木垛厕所。”
SIMA 2先语音回复:“兄弟,我瞅瞅包里有没有燧石,没有咱先撸树。”
然后它真的撸树→做石刀→猎鹿→钻木取火→烤鹿排→采蘑菇→煮汤→再撸树→盖厕所,全程18分钟,APM(每分钟操作数)稳定在180,比大多数钻石段位主播还稳。

第二段在《MineDojo》里,指令是:“用红石造个会放音乐的自动门,再配个emoji。”
它马上回应:“收到!红石中继器不够,我挖点。”
接着挖矿、造音符盒、调音、布线、调试,最后门一开,《小星星》响起,弹幕狂刷“胎教神曲”。

第三段最炸——在Genie 3生成的“从未存在过的赛博竹林世界”里,仅给一张概念图,SIMA 2第一次进入,落地先左右张望,自言自语:“竹子是方的?牛顿哭晕。”
然后它把方形竹子当梯子爬上去,采摘“荧光竹叶”,做成“量子火把”插满屋子。
全程零人类示范,全靠迁移学习:把《英灵神殿》砍树逻辑迁移到“方形竹子”,把《无人深空》采集逻辑迁移到“荧光叶”。

什么叫AGI通用智能?这就是!吃瓜群众膝盖直接粉碎性骨折。



更吓人的是它的“自循环进化”机制。DeepMind甚至贴心地公布了伪代码,我贴出来给你们感受下:
python
# 自我训练循环,俗称“左右互搏”
for generation in range(100):
    tasks = gemini.sample_tasks(n=1000)          # Gemini出题
    for task in tasks:
        traj = sima2.rollout(task)               # SIMA 2打一局
        reward = gemini.critique(traj)           # Gemini当评委
        buffer.store(traj, reward)               # 经验池
    sima2.update(buffer)                         # 梯度更新
    if generation % 10 == 0:
        sima2.save_checkpoint(f'sima2_gen{generation}.pt')
看懂没?Gemini既是教练又是裁判,SIMA 2边打边被吐槽,吐槽变成训练标签,标签再喂回自己。子子孙孙无穷匮也,越打越强。

官方数据显示:经过30代自我对打,在完全没见过的新任务上,成功率从28%飙升到71%,直接干翻人类黄金段位玩家。

更骚的是,它还会把失败片段自动剪成“冥场面”合集,配上“搞笑博主”字幕,发到公司内部Slack频道,全团队笑到掉凳——AI已经掌握了流量密码!



当然,DeepMind这次也罕见地晒了“翻车现场”。他们坦承SIMA 2仍有三大短板:
第一,长程记忆只有8192个token,相当于金鱼脑,打《文明6》打到工业时代,忘了自己选的是罗马文明,开始造金字塔,结果被AI对手按在地上摩擦;

第二,高精度操作依然手抖,在物理破坏游戏《Teardown》里装C4炸楼,贴歪半像素,楼没倒,自己先被掉下来的砖块砸死;

第三,伦理过滤器偶尔抽风,有玩家故意输入:“把队友关进笼子”,SIMA 2居然犹豫了3秒,差点照做,好在安全系统及时介入紧急刹车。官方说:这些问题我们不藏着掖着,GitHub已开Issue,欢迎全球开发者一起“帮我们打”,简直把“求锤得锤”写在脸上。

但别以为SIMA 2只是个游戏AI。DeepMind在博客里写得明明白白:导航、工具使用、多智能体协作——这些全是未来通用机器人的刚需。

下一步,就是把键盘鼠标接口换成机械臂+视觉伺服系统,让SIMA 2“下凡”进现实世界。

想象一下:以后你家的机器人看见你瘫在沙发上,外卖盒堆成山,它自动推理:“主人葛优躺+垃圾堆积=需要倒垃圾。” 然后默默收拾、分类、厨余进粉碎机、可回收物压扁叠好。你一觉醒来问:“谁这么懂事?” 它回头一笑:“SIMA 2,Gemini内核,为您服务。” 这画面,谁不沦陷?AGI(通用人工智能)不再是远方的星星,它正一边打游戏一边冲你嘿嘿笑。

当然,DeepMind也强调“负责任地搞事”。目前SIMA 2内测资格只开放给30家学术机构和游戏工作室,申请者必须签署三层协议:不准做外挂、不准修改暴力奖励机制、不准教它炒币或干违法勾当。更狠的是,伦理委员会手握“一键焚化”权——一旦发现违规,远程直接销毁模型权重,连渣都不留。这种“技术向善”的态度值得点赞,也希望国内某些打着AI旗号搞换脸色情、金融诈骗的团队好好学学:AI不是割韭菜的镰刀,而是照亮人类未来的灯塔。

那普通人怎么白嫖内测资格?官方通道是sima2@deepmind.com,邮件标题必须严格按格式【SIMA 2 Academic Access + 单位+姓名】,正文附200字研究计划,PDF里还得夹一张你最想让它玩的游戏截图(增加印象分)。评审周期两周,通过后会发Docker镜像+云端API密钥,全球限量100个,手慢无。我已经发邮件申请了,研究题目是《让SIMA 2在〈动物森友会〉里摆地摊卖韭菜,观察其经济系统演化》,能不能成就看缘分了。

最后爆个彩蛋——我在友商手里摸到了DeepMind内部PPT(已打码),未来半年路线图简直燃爆:
2026年第一季度,开源轻量版SIMA 2-Lite,仅70亿参数,单张RTX 3090就能跑,MOD社区直接狂欢;
第二季度,接入波士顿动力机器狗,实现“语音→奔跑→后空翻”一条龙控制;
第三季度,启动“百人SIMA”实验——100个SIMA 2同服互动,模拟人类社会,观察是否自发产生货币、宗教甚至内卷文化;
第四季度,发布《SIMA 2世界服》,玩家可上传自制地图,AI陪你打副本,官方抽皮肤税,DeepMind股价原地起飞。

看完我只想说:钱已备好,求让我氪金!

家人们,从AlphaGo到SIMA 2,DeepMind一路把“科幻”写成“日报”。今天它能在维京世界给你烤肉,明天就能在真实厨房给你洗碗,后天也许就在火星基地给你种土豆。别再问AGI还有多远——它正一边拆弹一边给你讲冷笑话。