Google Omni Flow视频生成完整教程与成本分析

#AI端侧 #AI提示上下文工程 #AI视频

2026-05-26 5K banq

谷歌新视频模型Gemini Omni Flash已上线，但普通聊天界面功能有限。真正专业的生产工具是Google Flow，支持批量生成、角色一致性、对话式编辑视频。本文详细拆解使用方法、成本 economics 和最佳实践。

谷歌视频模型藏了个专业模式，大部分人不知道！

用上这个隐藏工具，你的视频生成直接起飞

很多人试了谷歌新出的视频模型，觉得也就那样。其实是你用错地方了。真正好用的东西藏在另一个工具里，叫Google Flow。它能让你锁定画面比例、一次生成四个版本随便挑、让同一个角色出现在不同视频里，还能用聊天的方式改视频。价格方面，月费20美元的计划大概能生成8条10秒视频，100美元的能生成80多条。别再用普通聊天窗口生成视频了。

Gemini Omni Flash已经能用，但大部分人找错了入口

谷歌发布了新的视频生成模型Gemini Omni Flash。很多人跑去用普通的Gemini聊天窗口试了一下，输入一句话，出来一个视频，觉得效果一般般，然后就关掉了。

这个做法完全错了。普通聊天窗口只是一个对话界面，它砍掉了大部分专业功能。真正用来做视频生产的工具叫Google Flow，它是一个节点式的专业工作台，长得有点像视频剪辑软件里的那种流程图界面。

你需要在Flow里面才能用上所有好东西：锁定画面比例、批量生成、角色一致性、用对话修改视频。这些功能叠在一起，才能让你每次生成出来的东西都靠谱。

Google Flow比普通聊天窗口强在能锁住画幅和批量挑选

普通Gemini应用就像一个对话盒子。你打字，它回复。你能控制的东西很少，画幅比例靠运气，角色长啥样靠缘分，物理效果靠玄学。

Google Flow是一个可调节的专业画布。你进去之后第一件事就是设置好画面比例。要做演示视频就选16:9，要做短视频就选9:16，这个比例从第一秒到最后一条视频都不会变。

批量生成是另一个让你效率翻倍的功能。视频生成本质上是概率游戏，同一个提示词生成四次，每次的物理效果、角色动作、光影细节都不一样。Flow允许你一次生成四个版本，然后你手动挑那个动作最自然、物理最真实、光线最舒服的一条，剩下的扔掉。这个挑的过程，就是把你的成功率从25%拉到接近100%的关键。

对话式编辑视频让你不用反复重roll就能改好细节

以前生成视频最痛苦的事情是：你生成了一条，动作完美，但背景颜色不对。你没得选，只能重新生成，然后祈祷这次动作还能那么完美。结果新生成的背景对了，动作又歪了。

现在Omni支持对话式编辑。你直接告诉模型：把背景改成下雨的城市街道，把光线调成电影质感，角色原来的动作保持一模一样。模型会保留动作、物理效果、角色特征，只改你指定的那几样东西。

这个功能彻底改变了工作流程。你不再需要靠运气撞出一条完美视频，而是先生成一条差不多的，然后用对话把它修成你想要的。每次编辑消耗40个积分，比重新生成一条30积分贵一点，但你省下的是时间和挫折感。

用数字分身技术可以把你自己放进任何视频场景里

Omni允许你创建一个AI数字分身，用自己的长相和声音。你把这个数字分身上传到Flow里，然后随便写一个场景提示词，它就能把那个场景里的角色替换成你。

比如你可以写：一个穿着西装的CEO站在火星基地的指挥中心，看着巨大的全息地图。这个视频里的主角就是你自己，穿着西装，长着你的脸，表情和动作由AI生成。

这对做品牌宣传的人来说是个巨大的解放。你不需要租摄影棚，不需要安排拍摄时间，不需要担心今天状态不好。你只需要一个数字分身，然后随便编场景，想要多少条视频就有多少条。

角色一致性靠先做静态图再让动画保持长相不变

很多视频生成模型的毛病是：同一个角色出现在两个不同的视频里，长得完全不像。鼻子变大了，眼睛变小了，衣服颜色也变了。

Omni的解决方法是：你先用图像模型生成一张静态的角色图，把这张图上传到Flow里作为结构参考。然后你写动画提示词，模型会根据这张图的五官、体型、服装来生成运动画面。

这样你可以在十条不同的视频里用同一个角色，背景不同、动作不同、光线不同，但脸和身体始终保持一致。对于做系列视频的人来说，这是个基础功能。

视频到视频重风格能让粗糙素材秒变电影质感

你手头有一段拍得很粗糙的素材，或者是网上随便下载的一段普通视频。把它上传到Flow里作为参考，然后告诉Omni：保持同样的动作和物理交互，但把视觉风格改成赛博朋克夜景，或者改成手绘动画风格，或者改成老电影黑白质感。

底层动作、物体移动轨迹、人物走位都不变，但整个画面的材质、光影、色彩全部换成你指定的风格。这个功能可以用来快速做风格测试，也可以把库存的老素材翻新成新内容。

写提示词用CPTC框架才能保证物理效果不翻车

大多数人写视频提示词就是一句话：一只狗在跑。这种写法基本等于碰运气，模型不知道用什么镜头、什么光线、什么物理环境，结果就是各种诡异动作和扭曲身体。

CPTC框架把提示词拆成四个部分：背景环境、角色设定、主要动作、限制条件。背景环境要写清楚场地、光源、物理效果。比如：一间昏暗的1920年代酒吧，高对比度电影灯光，窗外下着大雨，雨滴打在玻璃上形成真实的水流。

角色设定要写穿着、表情状态。比如：穿着深灰色定制西装，表情冷静自信，双手插在口袋里。主要动作写清楚在干什么、镜头怎么动。比如：角色缓慢走向镜头，同时用右手滑动手腕上的全息屏幕，镜头从腰部缓慢上摇到面部。

限制条件要明确告诉模型不能做什么。比如：不要变形脸部特征，不要快速切换镜头，不要改变角色的服装，保持重力对背景物体的影响恒定。这个框架写出来，模型才知道边界在哪里，才不容易翻车。

生成一条10秒视频消耗30积分批量一次消耗120积分

视频生成非常消耗算力。Omni每生成一条10秒的视频，扣除30个积分。因为你要用批量生成来挑最好的版本，每次生成四个版本同时跑，那一轮批量生成就要消耗120个积分。

谷歌提供三个付费套餐。月费20美元的专业版每月给1000个Flow积分，按照四个版本一轮来算，你一个月能生成8条最终成片。月费100美元的极速版每月给10000个积分，能生成83条最终成片。月费200美元的极速版每月给25000个积分，能生成208条最终成片。

如果你用对话式编辑修改已有视频，每次编辑扣除40个积分。超出当月积分额度后可以按需购买补充积分，随用随买，不用等下个月。

数字分身脑洞场景可以让你的形象出现在任何地方

有了数字分身和CPTC框架，你可以把自己放进各种离谱的场景里做视频。下面这些点子都是可以直接拿去用的提示词骨架。

站在一个无边无际的黑暗虚空中，周围是通天彻地的发光数据柱，你用双手推动巨大的财务模型方块，像个顶级架构师在重构整个系统。
悬浮在零重力服务器机房里，用复杂的手势操控金色的光线流，身边漂浮着各种服务器机柜，你用纯手势在写代码。
走在一条充满霓虹灯的赛博朋克街道上，手里牵着一根发光的狗绳，狗绳的另一头拴着一只机器化的巨型法国斗牛犬，它有蝙蝠耳朵和白色胸毛。
从未来风格的运输机里跳出，在云层中自由落体，表情非常平静，手里拿着一个发光的平板电脑，对着镜头轻松讲解客户留存率指标。
坐在一个火把照明的古埃及神殿里，面前是一张华丽的木桌，头上戴着现代录音耳机，正在对着一群石头雕像播客节目。

用数字分身做管弦乐队指挥能一次控制二十五个角色

站在一个大型音乐厅的指挥台上，疯狂地挥动指挥棒，面前是一个由25个不同的高管组成的管弦乐队，每个人手里拿着纯水晶做成的乐器，你指挥他们合奏出一首完整的曲子。
站在一个中世纪实验室里，周围全是冒泡的生物发光药水，你把各种物理材料倒进大锅里搅拌，用这个画面来可视化你的营销漏斗。
骑在一辆高速飞行的悬浮列车上，列车正在宇宙中自己搭建发光的轨道，你拿着平板电脑展示计费系统和客户管理系统之间的实时数据同步。
在两栋摩天大楼之间走钢丝，脚下是城市的夜景，手里同时抛接几个发光的全息球体，每个球体上投射出不同AI培训课程的标题。
从一个生锈的蒸汽朋克时光机里走出来，进入一个未来乌托邦城市，你掏出全息地图，寻找这个城市里最核心的AI研究基地。

一些大多数人不知道的使用技巧

生成视频之前先用图像模型生成基础图，把这张图上传到Flow里，再让Omni把这张图变成动态视频。控制住第一帧的画面，后续的一致性就会好很多。

不要只写角色在做什么，要写镜头在怎么动。缓慢推进、快速横移、低角度上摇，这些镜头语言写清楚了，模型才能拍出你想要的画面。

写灯光的时候要写清楚光源方向。右上角的主光、左侧的补光、背后的轮廓光，这些细节决定最终画面是电影感还是随手拍。

如果你的角色在视频里转身或者移动，要告诉模型保持面部特征不变。数字分身最怕的就是转个身脸变了，限制条件里写清楚就不会翻车。

批量生成的四条视频里，选那条物理效果最自然的。光线不对可以对话编辑改，背景不对也可以改，但物理效果改不了，所以物理好的那条最值钱。