MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示,基于LoRA技术提高概念保真度。在多概念整合阶段,用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,基于基础提示确保不同概念之间的准确交互。MultiBooth在保持高图像保真度和文本对齐能力的同时,实现高效的多概念图像生成,且在训练和推理阶段具有较低的成本。

MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法  第1张
(图片来源网络,侵删)
MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法  第2张
(图片来源网络,侵删)