OpenAI扔出物理外挂Sora 2:把抖音按在地上摩擦

OpenAI发布Sora 2视频大模型,实现真实物理模拟、音画同步与数字分身功能,并推出iOS社交App,推动AI视频进入实用化新阶段。

OpenAI深夜丢炸弹:Sora 2让篮球会弹、人会后空翻,还自带杜比音效;顺手发个社交App,把TikTok按在地上摩擦。

在2025年10月1日,全球顶级AI公司OpenAI正式发布了Sora 2,这是继去年初代Sora模型之后的重磅升级版。如果说Sora 1.0只是个“能跑起来的雏形”,那Sora 2简直就是直接冲进了电影级制作的门槛!更夸张的是,这次OpenAI不仅带来了技术飞跃,还同步上线了一款专属iOS社交App,让你随时随地生成、分享、甚至“出演”AI视频!

Sora 2直接把物理引擎塞进神经网络:buoyancy(浮力)、inertia(惯性)、elastic collision(弹性碰撞)这些大学物理名词,被它翻译成像素。OpenAI团队举杯:“语言模型有GPT-3.5时刻,视频模型今天也正式成年!”

OpenAI内部把这次升级比作“GPT-3.5时刻”!
什么意思?就是说,就像2022年GPT-3.5让普通人第一次觉得“AI写东西真的能用了”一样,Sora 2现在也让AI视频生成从“玩具”变成了“工具”。
不再是那种动不动就扭曲变形、逻辑崩坏的诡异画面,而是真正能模拟现实世界物理规律的高质量视频。

最让人惊叹的是它的物理模拟能力。
以前的AI视频模型,比如Runway或者早期的Pika,经常出现物体穿模、动作失真、光影错乱的问题。

但Sora 2已经能处理极其复杂的动态场景:比如一个人在海上玩桨板做后空翻,水的浮力、身体的旋转、浪花的飞溅全都符合真实物理规律;又比如体操运动员完成一套高难度动作,肌肉发力、重心转移、落地缓冲都看起来无比自然。

OpenAI甚至举了个特别接地气的例子:一个篮球砸到篮板后弹开的轨迹,现在都能精准还原——这背后其实是模型对动量、碰撞、重力等物理参数的深度理解,已经远超“图像拼接”的层面,真正迈向了“世界模拟器”的愿景。

早先模型最怕“运动逻辑”:网球砸地后飞向月球,猫咪后空翻尾巴留在原地。Sora 2给每个像素发了一本《牛顿力学》。

  • 演示里,篮球砸到篮板弹回,角度、旋转、甚至球皮纹理形变都对。
  • 体操运动员空翻落地,脚掌微屈、尘土飞散,裁判直接给了10分。
OpenAI说:“我们不是做滤镜,我们在造宇宙沙盒。”

不仅如此,Sora 2首次加入了高质量音频生成能力!这意味着你输入一段文字提示,不仅能生成画面,还能同步产出匹配的环境音、人声对话甚至音效。比如你写“一只猫在雨夜的屋顶上喵喵叫”,Sora 2不仅能画出湿漉漉的瓦片、闪电照亮的天空,还能配上淅淅沥沥的雨声和真实的猫叫。而且,音画完全同步,绝不会出现嘴型对不上声音的尴尬。这一点,直接对标谷歌最新发布的Veo 3,但OpenAI显然在整合度和用户体验上更胜一筹。

以前AI视频是默剧,现在直接给配了杜比。Sora 2能生成:

  1. believable background noise—— believable到海鸥叫得你下意识摸口袋里的面包。
  2. speech——嘴型对得比某些流量明星还准。
  3. sound effects——滑板“呲啦”一声,你闻得到轮子摩擦的焦糊。Google Veo 3刚把画面口型对上,OpenAI连呼吸节奏都安排上了。

更炸裂的功能来了——“数字分身”(Cameo)系统!

你只需要在App里录制一次自己的声音和面部视频,Sora 2就能生成一个高度还原的你的AI替身。之后,无论你生成什么场景——比如“我在火星上吃火锅”或者“我和恐龙一起跳街舞”——你的数字分身都会自然地出现在画面中,说话、表情、动作都像你本人。

连OpenAI CEO山姆·阿尔特曼(Sam Altman)都在演示视频里亲自“出演”了!

当然,OpenAI强调了极强的隐私保护:只有你授权的人才能使用你的分身,你能看到所有包含你分身的视频(包括草稿),随时可以撤销权限或彻底删除。对于未成年人,系统还有额外的安全限制,比如默认关闭分身功能、降低内容可见性等。至于公众人物的“深度伪造”?技术上可行,但除非本人主动开通,否则一律禁止生成。

“Cameo”功能:把你自己塞进好莱坞
步骤比泡面还简单:
① 拍一张自拍+一句语音“Hi,I’m iron man”。
② 系统自动建模:脸型、声线、甚至你略显疲惫的黑眼圈。
③ 输入提示词:“让我穿着机甲在火星蹦迪。”

十秒后,你在红色荒漠里打碟,火星沙尘被低音炮震成烟花。

iOS社交App
说到使用方式,OpenAI这次玩得很大——直接推出了一款名为Sora的iOS社交App!目前仅限美国和加拿大用户通过邀请码体验,但很快会全球开放。

App界面类似抖音TikTok,但核心逻辑完全不同:它不鼓励你无脑刷视频,而是主打“创作+互动”。你可以自己生成短视频,也可以“Remix”(混剪)别人的作品,比如把朋友的分身放进你的奇幻场景里。

App Store凌晨偷偷上架,图标是一枚旋转的胶片emoji。功能三件套:

  1. 30秒极速生成——排队时间比星巴克还短。
  2. remix 瀑布流——看到别人的“哥斯拉跳广场舞”,一键换脸成你老板。
  3. 算法 Feed——官方宣言:“我们不做时间黑洞,刷到第20条系统强制你去拍片。”首批邀请码只发给美国、加拿大用户,黑市价格瞬间飙到500美元,比iPhone 17还难抢。
推荐算法由OpenAI自家的大语言模型驱动,会根据你的互动习惯和文字提示动态调整内容流。

最关键的是,OpenAI公开承诺:“我们不会优化用户在Feed里停留的时间”,也就是说,这个App的设计哲学是“激发创作欲,而非制造信息茧房”。

他们甚至专门发布了一份《Feed哲学宣言》,强调社区健康和创意优;有意思的是,Meta也在秘密开发类似的AI视频社交产品,看来下一代社交平台的战争已经打响。

目前,普通用户通过App可以免费使用Sora 2基础版,每天有“慷慨的生成额度”;而追求更高画质的专业用户,则需要访问sora.com申请Sora 2 Pro版本的邀请码。虽然官方还没公布具体参数,但从流出的样片来看,视频分辨率大约720p,30帧每秒,单条时长5到10秒——对于手机端社交传播来说,完全够用。而且OpenAI透露,API接口即将开放,未来开发者可以把Sora 2集成到自己的应用中,想象空间巨大。

长远来看,Sora 2的意义远不止于娱乐。OpenAI认为,这种能准确模拟物理世界的AI视频模型,是构建“通用世界模拟器”的关键一步。未来,自动驾驶汽车可以在Sora生成的极端天气场景中训练;建筑师能用它预演建筑在地震中的表现;教育者可以生成历史事件的沉浸式重现……AI不再只是“生成内容”,而是开始“理解并模拟现实”。

当然,挑战依然存在。比如视频时长限制、计算成本高昂、伦理边界模糊等问题,都需要时间解决。但不可否认的是,Sora 2已经把AI视频生成推向了一个全新高度。它不再是实验室里的炫技,而是真正走进普通人生活的创作工具。就像当年智能手机让每个人都能拍照、剪辑、发布一样,Sora 2或许正在开启“人人都是导演”的新时代。

总之,Sora 2的发布,不仅是OpenAI的胜利,更是整个生成式AI生态的里程碑。它让我们看到,AI视频的未来不是“以假乱真”,而是“以真启真”——用对现实的深刻理解,去拓展人类想象力的边界。接下来,就看谁能在这片新大陆上,率先建起属于自己的创意王国了!

彩蛋:
奥特曼的“一分钟恐怖片”
发布会最后,奥特曼亲自演示:
提示词只有一句:“a lonely astronaut hears a knock on the airlock door.(一位孤独的宇航员听见气闸舱门传来敲门声)”
十秒后,画面出现:
太空舱外摄像头缓缓推进,门把手自己转动,耳机里传来宇航员本人的呼吸与心跳——竟然用的是奥特曼早上刚录的Cameo。
全场尖叫。
屏幕渐暗,一行小字:
“Who’s knocking? Maybe it’s you.”



Sora 2不是工具,是一包“现实膨松剂”:
把好莱坞、环球影城、杜比剧院统统折叠进口袋。
当物理定律被AI学会,
当声音光影能被一行Prompt召唤,
故事不再被片场、预算、天气束缚,
它只被想象力封顶。
下次,当你在朋友圈刷到“我在金字塔顶蹦极”的视频,别急着点赞——
那可能不是特效,
那可能只是你朋友凌晨三点打出来的“新世界”。