UniVG-百度开源的统一模态视频生成模型

UniVG百度开发的一种统一模态的视频生成系统。这个系统通过处理文本和图像两种方式,能够解决多种视频生成任务。UniVG 主要分为高自由度和低自由度视频生成两个类别,并采用了多条件交叉注意力和偏置高斯噪声等方法来提高生成视频的质量。在公共学术基准 MSR-VTT 上,UniVG 取得了最低的帧间视频差异性度量,不仅在技术性能上超越了当前的开源方法,而且与业界领先的闭源方法 Gen2 相当。

UniVG 引入了“多条件交叉注意力”技术,用于高自由度视频生成,以生成与输入图像或文本语义一致的视频。在低自由度视频生成方面,采用了“偏置高斯噪声”的方法,相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

总的来说,UniVG 的推出为视频生成模型领域带来了新的可能性,提供了更灵活的输入方式,满足了真实世界多变的应用需求。

UniVG相关链接:

  • 项目:univg-baidu.github.io
  • 论文:https://arxiv.org/pdf/2401.09084

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。