只要动动嘴皮子说一句“我要一座会飞的火山岛,上面住着穿西装的企鹅”,然后眼前就真的蹦出这么个荒诞不经的世界?别急,现在不用嗑药也能看到了——Google Deepmind最新推出的Genie 3,就是这样一个“嘴炮成真”的AI造物主。
它不仅能听懂你的胡言乱语,还能立刻给你生成一个可以实时探索的3D世界,分辨率720p,帧率24帧每秒,虽然画质还不如我奶奶用诺基亚拍的视频清晰,但人家贵在“能动”!
更离谱的是,这个世界居然能“记住自己长什么样”长达好几分钟——对,你没听错,是“好几分钟”,在AI界这简直相当于人类活到150岁还不忘自己早餐吃了啥,堪称数字界的彭祖。
但别被这“几分钟的记性”骗了,这在AI模拟领域可是个史诗级突破。
以前的模型,比如Genie 1和Genie 2,那简直是金鱼记忆,前一秒还在火山口蹦迪,后一秒转个头,火山没了,企鹅变成了会喷火的仙人掌,整个世界仿佛被谁按了“随机重置”键。
而Genie 3不一样,它终于学会了“前后一致”这个基本做人(哦不,做AI)的道理。它生成的每一帧画面,都是基于之前长达一分钟的环境记忆“自动回归”推出来的,换句话说,它不是瞎编,而是“有逻辑地编”。
这就像你写小说,别人写到第三章主角突然换了性别、职业和国籍,而Genie 3居然能坚持让那只穿西装的企鹅从第一章飞到第五章,连领带都没换过——这在AI界,已经可以申报“敬业模范”了。
从“画皮”到“有魂”?Genie 3的“物理一致性”是个什么神仙设定?
我们得认真聊一聊“物理一致性”这个词,听起来高大上,其实翻译成大白话就是:“这个世界不会突然崩坏”。以前的AI视频模型,比如Veo系列,那纯粹是“画皮”高手,画面漂亮,但一碰就碎。你让它生成一个下雨的森林,前五秒雨下得好好的,第六秒突然雨滴开始往上飞,树开始倒着长,鹿开始用后腿走路——这不是奇幻片,这是AI发疯。
而Genie 3不一样,它不仅让雨往下下,还让树影随风摆动、水坑反光角度合理,甚至你绕着一棵树转一圈,它还能记得树皮上的裂纹在哪儿,不会突然给你换成一棵光滑的塑料树。这背后的技术原理,据Deepmind说,是“自回归生成+环境记忆缓冲”,听着像天书,其实简单理解就是:AI一边画,一边拿个小本本记“刚才我画了啥”,然后下一笔必须跟上一笔对得上。这就像你小时候画连环画,不能第一格小明在吃饭,第二格突然小明在太空漂浮还不戴头盔——Genie 3终于学会了“别自打脸”。
更绝的是,它还能生成“历史场景”,比如古威尼斯或克诺索斯迷宫。你输入“请还原公元前1400年的克里特岛宫殿”,它就能给你一个看起来像考古现场又像《刺客信条》预告片的画面。虽然它生成的建筑可能根本不符合真实考古数据——毕竟它没考过建筑系——但至少它能让柱子一直立着,不会走两步就塌,这让历史老师终于可以松一口气:至少学生不会再看到“古希腊神庙长着霓虹灯招牌”这种AI幻觉了。
用户不是玩家,是“嘴替上帝”——用文字指挥世界的“Promptable World Events”
在Genie 3的世界里,你不需要手柄,不需要VR头盔,你只需要一张嘴,或者更准确地说,一个键盘。Deepmind管这叫“可提示的世界事件”(promptable world events),听着像哲学课术语,其实就是“你说啥,它变啥”。比如你输入“现在开始下酸雨”,世界就会真的开始腐蚀建筑物;你输入“天上出现一个通往火星的传送门”,下一秒就有一道彩虹光柱从云层劈下来,一群外星浣熊排队准备移民。这种交互性,已经不是传统游戏能比的了——你不是在“玩”游戏,你是在“导演”宇宙。
而且,这种交互不是预设的“触发器”,而是AI实时理解并执行的结果。这就像你跟一个演员说:“你现在要演一个突然发现钱包丢了的上班族”,传统AI会从数据库里调一个“丢钱包”动画播放,而Genie 3会真的让这个角色开始翻口袋、皱眉、原地转圈,甚至可能蹲下来检查地板有没有监控——因为它“理解”了情境。这种能力,让Genie 3不只是个“生成器”,更像个“反应堆”,能对用户的每一个脑洞做出合理(或荒诞但自洽)的回应。
AI训练营上线!SIMA代理人在Genie 3里“读研”
你以为Genie 3只是个玩具?错。Google Deepmind真正的野心,是把它变成AI界的“黄埔军校”。他们已经在用Genie 3训练自家的SIMA代理——一个能自主完成任务的AI智能体。SIMA不是玩家,它是个“实习生”,在Genie 3生成的世界里学习怎么开门、怎么找钥匙、怎么在龙卷风里救小猫。最牛的是,这个模拟环境“不知道”SIMA的目标是什么,它只根据SIMA的行动来更新世界状态。这就像你在一个完全陌生的城市里,没人告诉你任务是“去银行取钱”,但你通过观察、试错、推理,最终完成了任务——这才是真正的智能。
这种训练方式,绕开了传统模拟器必须预设所有物理规则的麻烦。以前你得手动编程“重力是9.8m/s²”“玻璃打碎会发出声音”,而现在,Genie 3自己从海量数据中学到了这些常识,直接“涌现”出物理规律。这就像教孩子游泳,以前是逐条讲解“手臂划水、腿蹬夹”,现在是直接扔水里,让他自己扑腾学会——虽然可能呛几口水,但学得更快,适应性更强。
技术限制?当然有,比如“AI还不识字”和“多智能体一上线就乱套”
当然,Genie 3也不是神。Deepmind自己也坦白:目前交互时间只有几分钟,AI代理的动作还很有限,多智能体协作基本靠玄学,世界地图也不带GPS坐标,最关键的是——它看不懂文字!除非你在提示词里明确说“门上写着‘禁止入内’”,否则它生成的门上就是一片空白,或者写着“欢迎光临”但字体像蚯蚓爬过。这说明它还没真正理解“文字是信息”的概念,只是把文字当成一种“视觉图案”来画。
另外,虽然它能生成“历史场景”,但别指望它能当导游。你问它“克诺索斯宫殿的迷宫结构是怎样的”,它可能给你一个看起来很像迷宫的建筑,但路径完全是AI编的,可能走着走着就穿墙了。这就像让一个只会看图说话的画家复原《清明上河图》——画面热闹,细节全是梦。
游戏开发的“终局”?Jim Fan预言“游戏引擎2.0”即将到来
NVIDIA的AI总监Jim Fan直接放话:Genie 3就是“游戏引擎2.0”的雏形。他说,未来的游戏开发,不再需要Unity、Unreal Engine这些复杂的工具链,也不用建模师、动画师、程序员,你只需要一个厉害的“提示词工程师”,输入“我要一个赛博朋克东京,雨夜,有会飞的面条摊”,AI就直接给你生成整个世界,还能实时交互。他称之为“苦涩教训的胜利”——即AI最终会证明,最强大的系统不是靠人类精心设计规则,而是靠海量数据和自学习能力“长”出来的。
他甚至开玩笑说:“那一天,所有游戏开发者的简历上都得写‘精通Prompt Engineering’。”而传统游戏开发流程,将像马车一样被淘汰。虽然这话有点夸张,但想想看:如果Genie 3再进化几代,能支持4K、60帧、无限时长,还能让上百个AI智能体同时互动——那不就是《头号玩家》里的“绿洲”吗?只不过这个绿洲,是由AI自己“梦见”的。
AGI之路的“关键垫脚石”?Deepmind的野心不止于游戏
Deepmind自己也说了,Genie 3不是为了做游戏,而是为了通向AGI(通用人工智能)。他们认为,世界模型是训练真正智能体的“无限课程表”——你可以让AI在无数个虚拟世界中试错、学习、进化,而不必在现实世界撞墙或引发灾难。这就像给AI开了个“平行宇宙健身房”,它可以在里面练一万种技能,再回到现实世界“降维打击”。
CEO Demis Hassabis更是直言:这种能模拟物理世界底层结构的模型,是AGI的“核心组件”。而最近Deepmind的两位大佬Richard Sutton和David Silver还发论文说:别再让AI学人类写的东西了,让它去“活”在模拟世界里,自己积累经验才是正道。这就像教育孩子,不是背《论语》,而是让他去社会上摔打。
所以你看,Genie 3表面是个“生成器”,实则是Google在下一盘大棋:用AI造世界,用世界养AI,最终让AI自己成为“新世界的神”。至于我们人类?可能到时候只能负责写提示词,然后看着AI造出我们根本理解不了的宇宙——然后默默问一句:“我能申请当个管理员吗?”
极客辣评:
别令人印象深刻的是:“可预测的世界事件”。在导航时,您可以更改天气,引入新对象或生成角色-所有这些都通过文本命令进行。这为训练AI代理开辟了全新的可能性。
技术突破在于自回归生成。每个新帧都必须考虑到到该点的整个轨迹。在24 fps时,这意味着每秒24次复杂的计算,必须访问数分钟的上下文。
实际应用:DeepMind已经在Genie 3世界中测试了SIMA代理。更长的动作序列和更复杂的目标现在是可能的。这可能会彻底改变机器人训练和自主系统。