MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据,通过分两个阶段的训练过程,MUMU能更好地保留条件图像的细节,并在风格转换和角色一致性等任务上展现出泛化能力。

MUMU – 文本和图像驱动的多模态生成模型  第1张
(图片来源网络,侵删)
MUMU – 文本和图像驱动的多模态生成模型  第2张
(图片来源网络,侵删)