Google Lumiere刚刚通过其庞大的视频扩散模型改变了AI视频游戏。 与现有的模型不同,Lumiere在一个单一的,一致的通过生成整个视频,这要归功于其先进的时空U-Net架构。点击标题
Lumiere是 一种文本到视频的扩散模型,设计用于合成视频,以描绘逼真、多样和连贯的运动, 这是视频合成中的一个关键挑战。为此,我们引入了时空 U-Net 架构,通过模型中的一次传递,一次性生成视频的整个时长。
这与现有的视频模型形成了鲜明对比,现有的视频模型在合成远距离关键帧后再进行时间超分辨率处理,这种方法本身就难以实现全局时间一致性。通过部署空间和(重要的)时间下采样和上采样,并利用预先训练好的文本到图像扩散模型,我们的模型学会了通过在多个时空尺度上进行处理来直接生成全帧率、低分辨率的视频。
我们展示了最先进的文本到视频生成结果,并表明我们的设计可轻松促进各种内容创建任务和视频编辑应用,包括图像到视频、视频内画和风格化生成。
特点:
- 视频编辑:(又名修复) 在视频中启用编辑和对象插入
- 图像到视频 :将静态图像转换为动态视频
- 风格化: 生成各种艺术风格的视频
- Cinemagraphs(aka Motion Brush) :为场景的特定部分创建运动
- 文本转视频 :从文本生成详细的视频