以后剪视频可能就是跟AI打电话聊天
各位,视频剪辑这件事,以前是门手艺活儿。你得学PR、达芬奇、Final Cut Pro,记一堆快捷键,导出的时候还得赌电脑会不会蓝屏。后来出了AI视频工具,情况也没好到哪儿去,你得写一堆复杂的提示词,生成了不满意,改一个词,重来。折腾半天,跟写代码似的。
但谷歌这次在I/O大会上整的新活,可能要改变这个局面了。他们搞了个叫Gemini Omni的东西,这玩意儿最狠的一点是:你可以像跟人聊天一样,让它帮你做视频、改视频。
你给它看一段你拍的素材,然后说“把小提琴给我变没了”,它真给你变没了。你说“摸镜子的时候让镜面像水波一样散开”,它就真给你加上这个特效。不用学软件,不用写复杂的指令,就跟你在微信上跟朋友说“帮我把这张图P一下”一样自然。
这感觉就像是,你终于不用为了剪一个两分钟的朋友圈视频,去B站看三个小时的教程了。AI终于把那个藏在实验室里的超级大脑,变成了一个听得懂人话的剪辑助手。
扔一堆乱七八糟的素材进去能吐出一部完整短片
以前的AI视频工具是怎么工作的?基本就是“文字转视频”。你跟它说“一只猫在月球上骑自行车”,它根据这几个词,硬生生给你凑一段画面出来。它只看文字,不懂你脑子里还有啥别的想法。
Gemini Omni不一样,它是个贪吃蛇,什么都吃。文字、图片、视频片段、甚至一段你哼的歌,都可以一股脑扔给它。它不是把你的素材硬拼在一起,而是真的去“理解”这些素材之间的关系,然后合成一个和谐的整体。
谷歌官方演示了个例子。他们给模型丢了三样东西:一张参考图(决定画面风格)、一段运镜视频(决定镜头怎么动)、一首背景音乐(决定节奏)。如果是以前的工具,估计就是粗暴地把这几样东西叠在一起。但Gemini Omni做出来的是:风格跟着图走,运镜跟着视频学,画面的切换刚好踩在音乐的节拍上。这不是简单的拼接,这是AI当导演,在帮你调度一切。
你可以把Gemini Omni想象成一个“五感全开”的学霸。以前你给它看一张图,它只能看图说话。现在你给它看图、给它听歌、给它看另一段视频的动作,它能把这些完全不同的信息融合在一起,搞出一个全新的东西。这对于创作者来说太实用了,比如你想做一个复古风的短片,扔一张王家卫电影的截图进去,再扔一段你拍的街头素材,说“按这个调调来”,它就能把滤镜、色调、甚至镜头晃动的感觉都给你模仿出来。
AI开始懂物理了知道球扔出去会落地
如果你让以前的AI生成一个“往墙上扔鸡蛋”的视频,它很可能给你画一个鸡蛋粘在墙上,或者蛋液朝天上飞。为啥?因为它只见过“鸡蛋”和“墙”这两个词,但它不懂“惯性”和“重力”这俩物理老师教的东西。
这就是老式AI视频看起来“一眼假”的原因:场景很漂亮,但东西动起来不对劲,缺乏真实世界的物理逻辑。
Gemini Omni这次一个重大的升级,就是它开始具备“直觉物理学”的能力。用谷歌CEO皮查伊的话说,它不止能构建看起来像真的场景,还能推断接下来会发生什么。给你看一张水杯在桌边的照片,它知道下一秒杯子会掉下去摔碎。给你看一个人举起球,它知道球会抛物线落地,而不是原地消失。
谷歌DeepMind的首席架构师在大会上放了个大招。他只给了一个提示词“用黏土动画的风格,解释蛋白质折叠”。Gemini Omni直接生成了一段完整视频:里面有个黏土做的小人在那儿比划,讲氨基酸链怎么折叠成各种形状,全程还有配音解说。这视频不是从网上扒素材拼的,是模型自己“想”出来的。它得先理解蛋白质折叠这个复杂的生物学概念,还得懂怎么用黏土动画的视觉语言来表达,最后还得合成语音。这一套组合拳打下来,说明它脑子里真的装了一本“世界说明书”。
从此视频没有“最终版”只有“正在聊”
用过AI绘画的朋友都知道,最难的不是第一张图,而是改图。你想让AI把画里人物的红衣服改成蓝的,它可能直接把整个人重画一遍,脸也变了,背景也变了。视频也一样,以前的工具,你要是生成完发现一个bug,只能重新写提示词,从头再跑一遍,费时费力。
Gemini Omni彻底解决了这个痛点,靠的是“对话式编辑”。你上传一段视频,然后像跟朋友聊天一样给它下指令。注意,是下指令,不是写代码。
你想把主角的衣服颜色换了?打字告诉它就行。你想把镜头从正面推到侧面?打字告诉它就行。你想把背景里的路人甲抹掉?还是打字告诉它就行。最关键的是,每一次修改都只动你要改的那个地方,视频里的主角、场景、动作逻辑不会乱变。它就像有个“分层”的概念,知道什么是你要动的,什么是不能动的。
有个演示特别能说明问题。有人上传了一段自拍视频,然后输入:“当我的手碰到镜子的时候,让镜面像液体一样漂亮地波动起来。”结果生成的视频里,在他手指触碰到镜子的一瞬间,镜面真的像被石头砸中的水面一样,泛起了涟漪。这种控制力,在以前几乎不可想象。
这带来的结果是:视频创作从一个“生成-检查-重来”的痛苦循环,变成了一个“生成-微调-优化”的流畅对话。你不再是跪着求AI出片的“提示词工程师”,你变成了一个坐在导演椅上,跟AI副导演说“这里再来一条”的导演。
服务已上线但那个最强功能被谷歌藏起来了
好消息是,你不用等太久就能玩上。坏消息是,最强那个“改语音”的功能暂时还没有。谷歌这次做事有点“良心但克制”的意思。
从发布当天开始,Google AI的付费订阅用户(Plus、Pro、Ultra套餐)就能在Gemini App和Google Flow里体验Gemini Omni Flash版本了。这周晚些时候,YouTube Shorts和YouTube Create App也会向免费用户开放体验。也就是说,就算你不花钱,过几天也能在油管上试试水。谷歌还预告会在未来几周内推出API接口,让开发者也能接入。
但注意,目前上线的叫“Flash”版本,是轻量快速版,生成视频长度目前限制在10秒。谷歌说了这不是模型能力限制,是为了让更多人先用上。更猛的“Pro”版本还在路上,专门给专业广告、电影制作人准备的。
不过,有一个功能被谷歌暂时扣下了:音频和语音编辑。什么意思呢?就是改视频里人物说的话。虽然你能创建自己的“数字分身”,让AI版的你出镜,但你没法直接让视频里的你说你没说过的话。谷歌官方说得很直白:“我们还在研究怎么负责任地推出这个功能。”说白了就是怕被用来搞诈骗。
所有由Gemini Omni生成或编辑的视频,都会被打上谷歌的隐形水印SynthID,可以在谷歌搜索里验证真假。先让你玩得爽,但为了防止有人使坏,最敏感的开关,他们得再想想再开。
Omni被对手Seedance 2.0按在地上摩擦
话说得漂亮没用,是骡子是马得拉出来遛遛。就在谷歌发布会结束后的十几分钟,已经有人憋不住开始搞横评了。
一个叫TopviewAI的账号动作最快,发布后立刻搞了个“同题竞技”,让Gemini Omni Flash和一款叫Seedance 2.0的视频模型,输入完全一样的提示词,并排跑,看谁生成的视频质量高、动作流畅、画面一致性稳。
结果呢?一句话总结:谷歌这位刚出道的明星,被对手打得有点懵。
有个叫Damian Black的老哥看完对比视频,才过了15秒就忍不住开喷:“OMG,Omni跟Seedance比起来简直就是垃圾。谷歌到底在搞什么鬼?” 话虽然糙,但底下点赞的人一大片。另一个叫Gagan Singh的评价更损,他说:“Seedance对视觉语言的理解更胜一筹。Gemini像个业余学生拍的作业,Seedance像吉尔莫·德尔·托罗(那个拍《水形物语》的奥斯卡导演)的电影。”
这话翻译成大白话就是:谷歌生成的视频,能看,但透着股“努力了但审美不太行”的生涩感。而对手Seedance生成的东西,每一帧都像精心设计过的电影画面,光影、构图、色彩都透着股专业味儿。
Seedance凭什么把谷歌比下去?画质稳、动作顺、还懂审美
咱们得承认,谷歌的演示片里那些“变魔法”和“懂物理”确实炫酷。但网友实测下来发现,这些花活儿掩盖了一个要命的问题:基础画质和动态流畅度,Omni被Seedance 2.0甩开了一大截。
具体差在哪儿呢?有三点最明显。
第一是画面一致性。同样的提示词,让AI生成“一个人在跑步”。Seedance生成出来的人,从第一帧跑到最后一帧,脸没变、衣服没变、背景的树也是连贯的。但Omni生成出来的人,跑着跑着可能裤子的颜色就变了,或者脸上突然多出一副眼镜,或者背景里的路灯突然消失又出现。这在专业术语里叫“闪烁”或者“变形”,是AI视频目前最大的痛点。Seedance在这块明显压了谷歌一头。
第二是镜头语言。Omni在处理多镜头切换和复杂场景时,容易露怯。网友评测里专门提到,Omni在切换场景和多镜头拍摄方面表现不佳,经常切换得很生硬,像PPT翻页,没有电影那种“运镜”的丝滑感。而Seedance能理解什么叫“镜头推进”、什么叫“环绕拍摄”,生成的画面有呼吸感、有节奏。这已经不是比谁“不犯错”了,而是在比谁“更懂艺术”。
第三是审美倾向。这个有点玄乎,但看过对比视频的人感受很直接。Seedance生成的画面有“电影感”,光影层次丰富,色彩有统一的调性。而Omni生成的画面更“平”,像监控摄像头或者手机直出的原片,清晰但不够好看。有网友的评价一针见血:Omni像一个理科生做的视频,逻辑都对,但不好看。Seedance像一个艺术生做的,它懂什么叫“氛围”。
说白了,谷歌可能把精力都放在了“让AI理解物理世界”这个高大上的目标上,但在“让AI产出更好看的画面”这个基础题上,反而被专注打磨画质的Seedance给偷了家。
两种不同路径
谷歌的Gemini Omni,走的是“通用大脑AGI”路线。它不满足于只做一个“生成好看画面的工具”,它想成为一个“理解世界运转规律的模型”。所以它花大力气去搞物理直觉、搞多模态融合、搞对话式编辑。谷歌赌的是未来:当AI真的懂物理、懂逻辑、能跟你像人一样讨论创意的时候,画质和稳定性迟早能追上来。它的目标是星辰大海,不是眼前这一城一池的得失。
而Seedance 2.0,目前来看走的是“极致画质”路线。我不跟你扯那些虚的物理定律、世界模型,我就把每一帧画面做到最好看、最稳定、最像电影。对于绝大多数用户来说,尤其是做短视频、广告片、概念设计的创作者,他们要的其实就是“好看”和“稳定”。Seedance精准地抓住了这个核心需求,并且在当下这个时间点,确实做得比谷歌好。
所以目前的情况很简单:谷歌画了一个巨大无比的饼,但这个饼还半生不熟。Seedance端上来一盘卖相极好的饺子,现在已经能吃了,而且味道还不错。