VividTalk:一张照片和一段音频生成高质量说话视频

VividTalk是一个由南京大学、阿里巴巴字节跳动和南开大学联合开发的AI视频生成框架,它能够仅凭一张照片和一段音频生成高质量、逼真的说话视频。

VividTalk生成的视频具有高视觉质量,面部表情逼真,头部姿势多样,嘴唇同步显着提升,真实感和动态性更强。这个框架支持多种图像风格,包括照片、卡通图片等,并且支持多语言,使照片中的人物能够以多种语言“说话”。

VividTalk的工作原理主要分为两个阶段:

  1. 音频到网格的映射(第一阶段):这个阶段中,VividTalk将输入的音频映射到3D网格上。这涉及学习两种类型的运动:非刚性表情运动和刚性头部运动。对于表情运动,技术使用混合形状(blendshape)和顶点作为中间表示,以最大化模型的表示能力。混合形状提供了全局的粗略运动,而顶点偏移则描述了更细致的嘴唇运动。对于自然的头部运动,VividTalk提出了一个新颖的可学习的头部姿势代码本,采用了两阶段训练机制。
  2. 网格到视频的转换(第二阶段):这个阶段中,VividTalk使用双分支运动-VAE(变分自编码器)和生成器将学习到的网格转换为密集的运动,并基于这些运动逐帧合成高质量的视频。这一过程涉及将3D网格的运动转换为2D密集运动,然后输入到生成器中,以合成最终的视频帧。

通过这种方法,VividTalk能够生成与输入音频高度同步的逼真说话头像视频,提高了视频的真实感和动态性。

相关链接:

  • 项目和演示地址:https://humanaigc.github.io/vivid-talk/
  • 论文地址:https://arxiv.org/pdf/2312.01841.pdf
  • GitHub:https://github.com/HumanAIGC/VividTalk

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。