OmniAvatar是浙江大学和阿里巴巴集团共同推出的音频驱动全身模型。模型根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完美同步,表情丰富。模型基于像素级多级音频嵌入策略和LoRA训练方法,有效提升唇部同步精度和全身动作的自然度,支持人物与物体交互、背景控制和情绪控制等功能,广泛应用在播客、互动视频、虚拟场景等多种领域。

OmniAvatar – 浙大联合阿里推出的音频驱动全身视频生成模型  第1张
(图片来源网络,侵删)
OmniAvatar – 浙大联合阿里推出的音频驱动全身视频生成模型  第2张
(图片来源网络,侵删)