XVerse是字节跳动智能创作团队推出的新型多主体控制模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制,同时保持生成图像的高质量和一致性。XVerse将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确和独立控制,不干扰图像潜在变量或特征。模型引入VAE编码的图像特征模块和正则化技术,增强细节保留能力和生成质量。XVerse在多主体控制图像合成中提供高保真度、可编辑性,能对个体主体特征和语义属性进行强大的控制。

XVerse – 字节跳动推出的多主体控制图像生成模型  第1张
(图片来源网络,侵删)
XVerse – 字节跳动推出的多主体控制图像生成模型  第2张
(图片来源网络,侵删)