VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型,专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型,将一张静态图片转换成一个动态的视频角色,同时保持照片中人物的逼真外观。此外,VLOGGER还能够根据音频来控制人物动作,不仅仅是面部动作和嘴唇同步,还包括头部运动、目光、眨眼以及上身和手部手势,从而将音频驱动的视频合成推向了一个新的高度。

VLOGGER的工作原理主要基于一个两阶段的流程,结合了音频驱动的运动生成和时间连贯的视频生成。

VLOGGER – 谷歌推出的图像到合成人物动态视频的模型  第1张
(图片来源网络,侵删)
VLOGGER – 谷歌推出的图像到合成人物动态视频的模型  第2张
(图片来源网络,侵删)