HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体和场景的高质量视频。引入基于LLaVA的文本-图像融合模块和图像ID增强模块,HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有方法。框架支持音频驱动和视频驱动的视频生成,广泛用在虚拟人广告、虚拟试穿和视频编辑等领域,展示强大的可控性和灵活性。

HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架  第1张
(图片来源网络,侵删)