Gemini Omni视频模型发布：好像比Seedance2还差点！

2026-05-20 1 5K banq

谷歌发布Gemini Omni，一个能理解物理规律和背景知识的视频生成模型。它能将文字、图片、音频混在一起生成视频，还支持像聊天一样改视频。

以后剪视频可能就是跟AI打电话聊天

各位，视频剪辑这件事，以前是门手艺活儿。你得学PR、达芬奇、Final Cut Pro，记一堆快捷键，导出的时候还得赌电脑会不会蓝屏。后来出了AI视频工具，情况也没好到哪儿去，你得写一堆复杂的提示词，生成了不满意，改一个词，重来。折腾半天，跟写代码似的。

但谷歌这次在I/O大会上整的新活，可能要改变这个局面了。他们搞了个叫Gemini Omni的东西，这玩意儿最狠的一点是：你可以像跟人聊天一样，让它帮你做视频、改视频。

你给它看一段你拍的素材，然后说“把小提琴给我变没了”，它真给你变没了。你说“摸镜子的时候让镜面像水波一样散开”，它就真给你加上这个特效。不用学软件，不用写复杂的指令，就跟你在微信上跟朋友说“帮我把这张图P一下”一样自然。

这感觉就像是，你终于不用为了剪一个两分钟的朋友圈视频，去B站看三个小时的教程了。AI终于把那个藏在实验室里的超级大脑，变成了一个听得懂人话的剪辑助手。

扔一堆乱七八糟的素材进去能吐出一部完整短片

以前的AI视频工具是怎么工作的？基本就是“文字转视频”。你跟它说“一只猫在月球上骑自行车”，它根据这几个词，硬生生给你凑一段画面出来。它只看文字，不懂你脑子里还有啥别的想法。

Gemini Omni不一样，它是个贪吃蛇，什么都吃。文字、图片、视频片段、甚至一段你哼的歌，都可以一股脑扔给它。它不是把你的素材硬拼在一起，而是真的去“理解”这些素材之间的关系，然后合成一个和谐的整体。

谷歌官方演示了个例子。他们给模型丢了三样东西：一张参考图（决定画面风格）、一段运镜视频（决定镜头怎么动）、一首背景音乐（决定节奏）。如果是以前的工具，估计就是粗暴地把这几样东西叠在一起。但Gemini Omni做出来的是：风格跟着图走，运镜跟着视频学，画面的切换刚好踩在音乐的节拍上。这不是简单的拼接，这是AI当导演，在帮你调度一切。

你可以把Gemini Omni想象成一个“五感全开”的学霸。以前你给它看一张图，它只能看图说话。现在你给它看图、给它听歌、给它看另一段视频的动作，它能把这些完全不同的信息融合在一起，搞出一个全新的东西。这对于创作者来说太实用了，比如你想做一个复古风的短片，扔一张王家卫电影的截图进去，再扔一段你拍的街头素材，说“按这个调调来”，它就能把滤镜、色调、甚至镜头晃动的感觉都给你模仿出来。

AI开始懂物理了知道球扔出去会落地

如果你让以前的AI生成一个“往墙上扔鸡蛋”的视频，它很可能给你画一个鸡蛋粘在墙上，或者蛋液朝天上飞。为啥？因为它只见过“鸡蛋”和“墙”这两个词，但它不懂“惯性”和“重力”这俩物理老师教的东西。

这就是老式AI视频看起来“一眼假”的原因：场景很漂亮，但东西动起来不对劲，缺乏真实世界的物理逻辑。

Gemini Omni这次一个重大的升级，就是它开始具备“直觉物理学”的能力。用谷歌CEO皮查伊的话说，它不止能构建看起来像真的场景，还能推断接下来会发生什么。给你看一张水杯在桌边的照片，它知道下一秒杯子会掉下去摔碎。给你看一个人举起球，它知道球会抛物线落地，而不是原地消失。

谷歌DeepMind的首席架构师在大会上放了个大招。他只给了一个提示词“用黏土动画的风格，解释蛋白质折叠”。Gemini Omni直接生成了一段完整视频：里面有个黏土做的小人在那儿比划，讲氨基酸链怎么折叠成各种形状，全程还有配音解说。这视频不是从网上扒素材拼的，是模型自己“想”出来的。它得先理解蛋白质折叠这个复杂的生物学概念，还得懂怎么用黏土动画的视觉语言来表达，最后还得合成语音。这一套组合拳打下来，说明它脑子里真的装了一本“世界说明书”。

从此视频没有“最终版”只有“正在聊”

用过AI绘画的朋友都知道，最难的不是第一张图，而是改图。你想让AI把画里人物的红衣服改成蓝的，它可能直接把整个人重画一遍，脸也变了，背景也变了。视频也一样，以前的工具，你要是生成完发现一个bug，只能重新写提示词，从头再跑一遍，费时费力。

Gemini Omni彻底解决了这个痛点，靠的是“对话式编辑”。你上传一段视频，然后像跟朋友聊天一样给它下指令。注意，是下指令，不是写代码。

你想把主角的衣服颜色换了？打字告诉它就行。你想把镜头从正面推到侧面？打字告诉它就行。你想把背景里的路人甲抹掉？还是打字告诉它就行。最关键的是，每一次修改都只动你要改的那个地方，视频里的主角、场景、动作逻辑不会乱变。它就像有个“分层”的概念，知道什么是你要动的，什么是不能动的。

有个演示特别能说明问题。有人上传了一段自拍视频，然后输入：“当我的手碰到镜子的时候，让镜面像液体一样漂亮地波动起来。”结果生成的视频里，在他手指触碰到镜子的一瞬间，镜面真的像被石头砸中的水面一样，泛起了涟漪。这种控制力，在以前几乎不可想象。

这带来的结果是：视频创作从一个“生成-检查-重来”的痛苦循环，变成了一个“生成-微调-优化”的流畅对话。你不再是跪着求AI出片的“提示词工程师”，你变成了一个坐在导演椅上，跟AI副导演说“这里再来一条”的导演。

服务已上线但那个最强功能被谷歌藏起来了

好消息是，你不用等太久就能玩上。坏消息是，最强那个“改语音”的功能暂时还没有。谷歌这次做事有点“良心但克制”的意思。

从发布当天开始，Google AI的付费订阅用户（Plus、Pro、Ultra套餐）就能在Gemini App和Google Flow里体验Gemini Omni Flash版本了。这周晚些时候，YouTube Shorts和YouTube Create App也会向免费用户开放体验。也就是说，就算你不花钱，过几天也能在油管上试试水。谷歌还预告会在未来几周内推出API接口，让开发者也能接入。

但注意，目前上线的叫“Flash”版本，是轻量快速版，生成视频长度目前限制在10秒。谷歌说了这不是模型能力限制，是为了让更多人先用上。更猛的“Pro”版本还在路上，专门给专业广告、电影制作人准备的。

不过，有一个功能被谷歌暂时扣下了：音频和语音编辑。什么意思呢？就是改视频里人物说的话。虽然你能创建自己的“数字分身”，让AI版的你出镜，但你没法直接让视频里的你说你没说过的话。谷歌官方说得很直白：“我们还在研究怎么负责任地推出这个功能。”说白了就是怕被用来搞诈骗。

所有由Gemini Omni生成或编辑的视频，都会被打上谷歌的隐形水印SynthID，可以在谷歌搜索里验证真假。先让你玩得爽，但为了防止有人使坏，最敏感的开关，他们得再想想再开。

Omni被对手Seedance 2.0按在地上摩擦

话说得漂亮没用，是骡子是马得拉出来遛遛。就在谷歌发布会结束后的十几分钟，已经有人憋不住开始搞横评了。

一个叫TopviewAI的账号动作最快，发布后立刻搞了个“同题竞技”，让Gemini Omni Flash和一款叫Seedance 2.0的视频模型，输入完全一样的提示词，并排跑，看谁生成的视频质量高、动作流畅、画面一致性稳。

结果呢？一句话总结：谷歌这位刚出道的明星，被对手打得有点懵。

有个叫Damian Black的老哥看完对比视频，才过了15秒就忍不住开喷：“OMG，Omni跟Seedance比起来简直就是垃圾。谷歌到底在搞什么鬼？” 话虽然糙，但底下点赞的人一大片。另一个叫Gagan Singh的评价更损，他说：“Seedance对视觉语言的理解更胜一筹。Gemini像个业余学生拍的作业，Seedance像吉尔莫·德尔·托罗（那个拍《水形物语》的奥斯卡导演）的电影。”

这话翻译成大白话就是：谷歌生成的视频，能看，但透着股“努力了但审美不太行”的生涩感。而对手Seedance生成的东西，每一帧都像精心设计过的电影画面，光影、构图、色彩都透着股专业味儿。

Seedance凭什么把谷歌比下去？画质稳、动作顺、还懂审美

咱们得承认，谷歌的演示片里那些“变魔法”和“懂物理”确实炫酷。但网友实测下来发现，这些花活儿掩盖了一个要命的问题：基础画质和动态流畅度，Omni被Seedance 2.0甩开了一大截。

具体差在哪儿呢？有三点最明显。

第一是画面一致性。同样的提示词，让AI生成“一个人在跑步”。Seedance生成出来的人，从第一帧跑到最后一帧，脸没变、衣服没变、背景的树也是连贯的。但Omni生成出来的人，跑着跑着可能裤子的颜色就变了，或者脸上突然多出一副眼镜，或者背景里的路灯突然消失又出现。这在专业术语里叫“闪烁”或者“变形”，是AI视频目前最大的痛点。Seedance在这块明显压了谷歌一头。

第二是镜头语言。Omni在处理多镜头切换和复杂场景时，容易露怯。网友评测里专门提到，Omni在切换场景和多镜头拍摄方面表现不佳，经常切换得很生硬，像PPT翻页，没有电影那种“运镜”的丝滑感。而Seedance能理解什么叫“镜头推进”、什么叫“环绕拍摄”，生成的画面有呼吸感、有节奏。这已经不是比谁“不犯错”了，而是在比谁“更懂艺术”。

第三是审美倾向。这个有点玄乎，但看过对比视频的人感受很直接。Seedance生成的画面有“电影感”，光影层次丰富，色彩有统一的调性。而Omni生成的画面更“平”，像监控摄像头或者手机直出的原片，清晰但不够好看。有网友的评价一针见血：Omni像一个理科生做的视频，逻辑都对，但不好看。Seedance像一个艺术生做的，它懂什么叫“氛围”。

说白了，谷歌可能把精力都放在了“让AI理解物理世界”这个高大上的目标上，但在“让AI产出更好看的画面”这个基础题上，反而被专注打磨画质的Seedance给偷了家。

两种不同路径

谷歌的Gemini Omni，走的是“通用大脑AGI”路线。它不满足于只做一个“生成好看画面的工具”，它想成为一个“理解世界运转规律的模型”。所以它花大力气去搞物理直觉、搞多模态融合、搞对话式编辑。谷歌赌的是未来：当AI真的懂物理、懂逻辑、能跟你像人一样讨论创意的时候，画质和稳定性迟早能追上来。它的目标是星辰大海，不是眼前这一城一池的得失。

而Seedance 2.0，目前来看走的是“极致画质”路线。我不跟你扯那些虚的物理定律、世界模型，我就把每一帧画面做到最好看、最稳定、最像电影。对于绝大多数用户来说，尤其是做短视频、广告片、概念设计的创作者，他们要的其实就是“好看”和“稳定”。Seedance精准地抓住了这个核心需求，并且在当下这个时间点，确实做得比谷歌好。

所以目前的情况很简单：谷歌画了一个巨大无比的饼，但这个饼还半生不熟。Seedance端上来一盘卖相极好的饺子，现在已经能吃了，而且味道还不错。