从文字到世界:空间智能是AI的下一个前沿!
李飞飞认为:大模型再牛,也只是“黑屋子里的文笔匠”,而真正的下一个引爆点,是能让AI在三维空间里撒野的——空间智能!
先来给新来的小伙伴补补课:李飞飞,斯坦福终身教授,ImageNet创始人,现代AI视觉之父——不对,是之母!2012年她一手掀起的ImageNet竞赛,直接把深度学习从实验室送上了火箭,才有了后来GPT、Midjourney这些妖孽。
现在她不玩图片分类了,拉着CV圈四大天王Justin Johnson、Christoph Lassner、Ben Mildenhall,还有隐形大佬,成立了新公司World Labs,专注干一件大事:让AI从“读图”进化到“造世界”。听懂掌声!
【第一章:AI的“盲人”现状】
现在最火的大语言模型,说白了是超级“文科生”,背完整个图书馆,却连自家厨房有几把椅子都数不清。你让它写首诗,它张口就来;你让它估一下茶几离沙发多远,它立马“瞎”给你看。
李飞飞甩出硬核数据:目前最强多模态模型,在“估距离、估大小、估角度”任务上,正确率跟抛硬币差不多!更别说让它在迷宫里找捷径、预测下一秒苹果怎么落地——直接翻车。
一句话,没有空间智能,AI永远只能活在二次元!
【第二章:空间智能是啥?给你三个生活镜头】
镜头一:你侧方停车,后视镜里那条缝越来越窄,你一把方向盘进去——这就叫空间想象。
镜头二:消防员冲进浓烟,凭直觉判断楼板会不会塌——这叫空间推理。
镜头三:熊孩子玩沙子,一铲下去就知道城堡能堆多高——这叫空间创造。
李飞飞说,这三招是人类自带的“外挂”,动物用了五亿年进化出来,机器还毛都不会。所以World Labs的终极目标,就是让AI也长出这套“外挂”。
【第三章:世界模型——比大模型更炸裂的新物种】
划重点,别再整天GPT、GPT的,未来属于“世界模型”!
李飞飞给出定义:能同时搞定语义、几何、物理、动力,还能实时生成可交互3D环境的模型,才叫世界模型。它得满足三大超能力:
1. 凭空造世界:给它一句话“赛博朋克菜市场”,它立刻给你蹦出一个几何一致、物理合理、能跑能跳能买菜的全景3D。
2. 多模态秒懂:不管是图片、视频、深度图、手势、甚至你随手画个火柴人,它都能秒回你一段完整空间。
3. 动作预测:告诉它“把咖啡递给奶奶”,它不仅能算出咖啡杯轨迹,还能预测奶奶接杯子的角度,防止烫伤。
听完是不是头皮发麻?这就是李飞飞口中的“下一代AI操作系统”!
【第四章:训练世界模型有多难?她把底牌掀给你看】
第一关:任务函数。语言模型有“猜下一个字”就行,世界模型得猜“下一帧三维几何+物理+语义”,难度直接指数级爆炸。
第二关:数据荒。网上图文对一抓一大把,可带深度、带动力、带交互的3D数据比熊猫血还稀有。World Labs的解法:把全网视频当“原料”,用新算法蒸馏出3D信息,再狂叠合成数据、深度摄像头、触觉手套,硬是把“数据沙漠”变成“数据油田”。
第三关:架构重构。传统Transformer把图片切成1Dtoken,连数椅子都费劲。李飞飞团队甩出RTFM——实时生成帧模型,用空间当记忆,显式存3D信息,生成速度飙到实时,还能记住一小时前房间长啥样。听懂掌声×2!
【第五章:Marble首秀——创作者的快乐星球】
今年早些时候,World Labs悄悄给内测用户放了个大招:Marble,全球首个能“一句话生3D”的世界模型。
filmmakers直接泪目:以前搭个虚拟片场要烧掉几千万,现在键盘敲一行字,AI秒出可行走、可运镜、可改材质的3D场景,预算直接砍到零头。游戏策划更疯,拿Marble跑关卡原型,一天迭代三十版,老板直呼“福报”。
李飞飞放话:公测版马上来,届时抖音百万博主都能零成本拍3D大片,影视工业要被“平民化”锤爆!
【第六章:机器人迎来“开眼”时刻】
家人们,机器人为啥迟迟进不了你家厨房?缺的不是电机,缺的是“空间脑”!
World Labs的世界模型一出,仿真到现实的鸿沟被瞬间抹平:机器人先在AI生成的无限场景里狂练手,再把经验迁移到真身,数据成本降到白菜价。
未来五年,给你奶奶端饭的家务机器人、给科学家递试管的实验机器人、深海挖矿的外骨骼机器人,全都会基于同一套世界模型“毕业”。
李飞飞补刀:人形机器人只是开始,纳米软体、深海、太空,任意形态的“新物种”都在路上!
【第七章:科研、医疗、教育——三重暴击】
科研端:世界模型能模拟百万次粒子对撞,提前锁定希格斯玻色子新信号,论文发表速度×10。
医疗端:AI把分子相互作用做成3D电影,新药发现周期从十年缩到十个月;放射科大夫戴上XR眼镜,肿瘤边缘被AI高亮标出,误诊率腰斩;居家养老摄像头只传空间语义,不传真人画面,隐私和照护兼得。
教育端:孩子们戴上头显,直接钻进细胞核看DNA转录,历史课穿越到赤壁之战,外科新手在AI世界里切错一百次也不出人命。李飞飞强调:空间智能不是替代老师,而是让老师变成“任意门”管理员。
【第八章:她的信仰——AI必须增强人类,而不是淘汰】
李飞飞反复喊话:技术再狂,也要把“人”放中间。World Labs内部三大铁律:
1. 不抢创作者饭碗,只当“无限素材库”。
2. 机器人必须“共情对齐”,奶奶不想被喂饭,AI就得尊重她的尊严。
3. 数据隐私红线碰一次,直接全队下课。她说:“AI是镜子,照出使用者的价值观,空间智能的未来由我们每一个人书写。”
【结尾:75年轮回,再次回答图灵】
1949年,图灵在实验室里问“机器能思考吗?”
2025年,李飞飞站在斯坦福草坪上回答:“能,但不止于文字,而是整个物理世界。”
她邀请全球研究者、开发者、创业者、政策制定者一起上车:空间智能不是哪家公司的独角戏,而是人类共同的下一场“大航海”。
当科学家指引梦想,资本是否会跟随?