阿里巴巴推出EMO：会说话的肖像

阿里巴巴集团智能计算研究院推出：EMO：Emote Portrait Alive - 在弱条件下使用音视频扩散模型生成富有表现力的肖像视频

我们提出了 EMO，一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频，例如说话和唱歌，我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频，同时，我们可以根据输入视频的长度生成任意持续时间的视频。

通过专注于音频线索和面部运动之间的动态和细微差别的关系，解决了增强说话头部视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性，这些技术往往无法捕捉到人类表情的全部频谱和个人面部风格的独特性。

为了解决这些问题，我们提出了EMO，一个新的框架，利用直接的音频到视频的合成方法，绕过中间的3D模型或面部标志的需要。我们的方法确保了整个视频中的无缝帧转换和一致的身份保留，从而产生了高度表现力和逼真的动画。

实验结果表明，EMO不仅能够产生令人信服的说话视频，而且还能产生各种风格的唱歌视频，在表现力和真实感方面明显优于现有的最先进的方法。

效果点击标题