VLOGGER – 谷歌推出的图像到合成人物动态视频的模型

baidu09_com 2025-08-31 8 0

VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型，专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型，将一张静态图片转换成一个动态的视频角色，同时保持照片中人物的逼真外观。此外，VLOGGER还能够根据音频来控制人物动作，不仅仅是面部动作和嘴唇同步，还包括头部运动、目光、眨眼以及上身和手部手势，从而将音频驱动的视频合成推向了一个新的高度。

VLOGGER的工作原理主要基于一个两阶段的流程，结合了音频驱动的运动生成和时间连贯的视频生成。