Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来,基于可选的文本提示调节肖像表情,生成与音频同步的高分辨率4K视频。Hallo2基于先进的数据增强技术,如补丁下降和高斯噪声,增强视频的长期视觉一致性和时间连贯性。Hallo2实现潜在代码的矢量量化和时间对齐技术,生成4K分辨率的视频,引入语义文本标签作为条件输入,提高动画的可控性和多样性。Hallo2在多个公开数据集上进行广泛的实验,展示在生成长时间、高分辨率、丰富且可控内容方面的能力。

Hallo2 – 复旦、百度和南大共同推出的音频驱动视频生成模型  第1张
(图片来源网络,侵删)
Hallo2 – 复旦、百度和南大共同推出的音频驱动视频生成模型  第2张
(图片来源网络,侵删)