Google Omni Flow视频生成完整教程与成本分析

谷歌新视频模型Gemini Omni Flash已上线,但普通聊天界面功能有限。真正专业的生产工具是Google Flow,支持批量生成、角色一致性、对话式编辑视频。本文详细拆解使用方法、成本 economics 和最佳实践。

谷歌视频模型藏了个专业模式,大部分人不知道!

用上这个隐藏工具,你的视频生成直接起飞

很多人试了谷歌新出的视频模型,觉得也就那样。其实是你用错地方了。真正好用的东西藏在另一个工具里,叫Google Flow。它能让你锁定画面比例、一次生成四个版本随便挑、让同一个角色出现在不同视频里,还能用聊天的方式改视频。价格方面,月费20美元的计划大概能生成8条10秒视频,100美元的能生成80多条。别再用普通聊天窗口生成视频了。

Gemini Omni Flash已经能用,但大部分人找错了入口

谷歌发布了新的视频生成模型Gemini Omni Flash。很多人跑去用普通的Gemini聊天窗口试了一下,输入一句话,出来一个视频,觉得效果一般般,然后就关掉了。

这个做法完全错了。普通聊天窗口只是一个对话界面,它砍掉了大部分专业功能。真正用来做视频生产的工具叫Google Flow,它是一个节点式的专业工作台,长得有点像视频剪辑软件里的那种流程图界面。

你需要在Flow里面才能用上所有好东西:锁定画面比例、批量生成、角色一致性、用对话修改视频。这些功能叠在一起,才能让你每次生成出来的东西都靠谱。

Google Flow比普通聊天窗口强在能锁住画幅和批量挑选

普通Gemini应用就像一个对话盒子。你打字,它回复。你能控制的东西很少,画幅比例靠运气,角色长啥样靠缘分,物理效果靠玄学。

Google Flow是一个可调节的专业画布。你进去之后第一件事就是设置好画面比例。要做演示视频就选16:9,要做短视频就选9:16,这个比例从第一秒到最后一条视频都不会变。

批量生成是另一个让你效率翻倍的功能。视频生成本质上是概率游戏,同一个提示词生成四次,每次的物理效果、角色动作、光影细节都不一样。Flow允许你一次生成四个版本,然后你手动挑那个动作最自然、物理最真实、光线最舒服的一条,剩下的扔掉。这个挑的过程,就是把你的成功率从25%拉到接近100%的关键。

对话式编辑视频让你不用反复重roll就能改好细节

以前生成视频最痛苦的事情是:你生成了一条,动作完美,但背景颜色不对。你没得选,只能重新生成,然后祈祷这次动作还能那么完美。结果新生成的背景对了,动作又歪了。

现在Omni支持对话式编辑。你直接告诉模型:把背景改成下雨的城市街道,把光线调成电影质感,角色原来的动作保持一模一样。模型会保留动作、物理效果、角色特征,只改你指定的那几样东西。

这个功能彻底改变了工作流程。你不再需要靠运气撞出一条完美视频,而是先生成一条差不多的,然后用对话把它修成你想要的。每次编辑消耗40个积分,比重新生成一条30积分贵一点,但你省下的是时间和挫折感。

用数字分身技术可以把你自己放进任何视频场景里

Omni允许你创建一个AI数字分身,用自己的长相和声音。你把这个数字分身上传到Flow里,然后随便写一个场景提示词,它就能把那个场景里的角色替换成你。

比如你可以写:一个穿着西装的CEO站在火星基地的指挥中心,看着巨大的全息地图。这个视频里的主角就是你自己,穿着西装,长着你的脸,表情和动作由AI生成。

这对做品牌宣传的人来说是个巨大的解放。你不需要租摄影棚,不需要安排拍摄时间,不需要担心今天状态不好。你只需要一个数字分身,然后随便编场景,想要多少条视频就有多少条。

角色一致性靠先做静态图再让动画保持长相不变

很多视频生成模型的毛病是:同一个角色出现在两个不同的视频里,长得完全不像。鼻子变大了,眼睛变小了,衣服颜色也变了。

Omni的解决方法是:你先用图像模型生成一张静态的角色图,把这张图上传到Flow里作为结构参考。然后你写动画提示词,模型会根据这张图的五官、体型、服装来生成运动画面。

这样你可以在十条不同的视频里用同一个角色,背景不同、动作不同、光线不同,但脸和身体始终保持一致。对于做系列视频的人来说,这是个基础功能。

视频到视频重风格能让粗糙素材秒变电影质感

你手头有一段拍得很粗糙的素材,或者是网上随便下载的一段普通视频。把它上传到Flow里作为参考,然后告诉Omni:保持同样的动作和物理交互,但把视觉风格改成赛博朋克夜景,或者改成手绘动画风格,或者改成老电影黑白质感。

底层动作、物体移动轨迹、人物走位都不变,但整个画面的材质、光影、色彩全部换成你指定的风格。这个功能可以用来快速做风格测试,也可以把库存的老素材翻新成新内容。

写提示词用CPTC框架才能保证物理效果不翻车

大多数人写视频提示词就是一句话:一只狗在跑。这种写法基本等于碰运气,模型不知道用什么镜头、什么光线、什么物理环境,结果就是各种诡异动作和扭曲身体。

CPTC框架把提示词拆成四个部分:背景环境、角色设定、主要动作、限制条件。背景环境要写清楚场地、光源、物理效果。比如:一间昏暗的1920年代酒吧,高对比度电影灯光,窗外下着大雨,雨滴打在玻璃上形成真实的水流。

角色设定要写穿着、表情状态。比如:穿着深灰色定制西装,表情冷静自信,双手插在口袋里。主要动作写清楚在干什么、镜头怎么动。比如:角色缓慢走向镜头,同时用右手滑动手腕上的全息屏幕,镜头从腰部缓慢上摇到面部。

限制条件要明确告诉模型不能做什么。比如:不要变形脸部特征,不要快速切换镜头,不要改变角色的服装,保持重力对背景物体的影响恒定。这个框架写出来,模型才知道边界在哪里,才不容易翻车。

生成一条10秒视频消耗30积分批量一次消耗120积分

视频生成非常消耗算力。Omni每生成一条10秒的视频,扣除30个积分。因为你要用批量生成来挑最好的版本,每次生成四个版本同时跑,那一轮批量生成就要消耗120个积分。

谷歌提供三个付费套餐。月费20美元的专业版每月给1000个Flow积分,按照四个版本一轮来算,你一个月能生成8条最终成片。月费100美元的极速版每月给10000个积分,能生成83条最终成片。月费200美元的极速版每月给25000个积分,能生成208条最终成片。

如果你用对话式编辑修改已有视频,每次编辑扣除40个积分。超出当月积分额度后可以按需购买补充积分,随用随买,不用等下个月。

数字分身脑洞场景可以让你的形象出现在任何地方

有了数字分身和CPTC框架,你可以把自己放进各种离谱的场景里做视频。下面这些点子都是可以直接拿去用的提示词骨架。

站在一个无边无际的黑暗虚空中,周围是通天彻地的发光数据柱,你用双手推动巨大的财务模型方块,像个顶级架构师在重构整个系统。
悬浮在零重力服务器机房里,用复杂的手势操控金色的光线流,身边漂浮着各种服务器机柜,你用纯手势在写代码。
走在一条充满霓虹灯的赛博朋克街道上,手里牵着一根发光的狗绳,狗绳的另一头拴着一只机器化的巨型法国斗牛犬,它有蝙蝠耳朵和白色胸毛。
从未来风格的运输机里跳出,在云层中自由落体,表情非常平静,手里拿着一个发光的平板电脑,对着镜头轻松讲解客户留存率指标。
坐在一个火把照明的古埃及神殿里,面前是一张华丽的木桌,头上戴着现代录音耳机,正在对着一群石头雕像播客节目。

用数字分身做管弦乐队指挥能一次控制二十五个角色

站在一个大型音乐厅的指挥台上,疯狂地挥动指挥棒,面前是一个由25个不同的高管组成的管弦乐队,每个人手里拿着纯水晶做成的乐器,你指挥他们合奏出一首完整的曲子。
站在一个中世纪实验室里,周围全是冒泡的生物发光药水,你把各种物理材料倒进大锅里搅拌,用这个画面来可视化你的营销漏斗。
骑在一辆高速飞行的悬浮列车上,列车正在宇宙中自己搭建发光的轨道,你拿着平板电脑展示计费系统和客户管理系统之间的实时数据同步。
在两栋摩天大楼之间走钢丝,脚下是城市的夜景,手里同时抛接几个发光的全息球体,每个球体上投射出不同AI培训课程的标题。
从一个生锈的蒸汽朋克时光机里走出来,进入一个未来乌托邦城市,你掏出全息地图,寻找这个城市里最核心的AI研究基地。

一些大多数人不知道的使用技巧

生成视频之前先用图像模型生成基础图,把这张图上传到Flow里,再让Omni把这张图变成动态视频。控制住第一帧的画面,后续的一致性就会好很多。

不要只写角色在做什么,要写镜头在怎么动。缓慢推进、快速横移、低角度上摇,这些镜头语言写清楚了,模型才能拍出你想要的画面。

写灯光的时候要写清楚光源方向。右上角的主光、左侧的补光、背后的轮廓光,这些细节决定最终画面是电影感还是随手拍。

如果你的角色在视频里转身或者移动,要告诉模型保持面部特征不变。数字分身最怕的就是转个身脸变了,限制条件里写清楚就不会翻车。

批量生成的四条视频里,选那条物理效果最自然的。光线不对可以对话编辑改,背景不对也可以改,但物理效果改不了,所以物理好的那条最值钱。