ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提示时的语义对齐能力。现有的扩散模型通常依赖于CLIP作为文本编码器,在处理包含多个对象、详细属性和复杂关系等信息的长文本提示时存在局限性。因此,研究团队提出了ELLA,使用一个时序感知语义连接器(TSC)来动态提取预训练LLM中的时序依赖条件,从而提高了模型解释复杂提示的能力。

ELLA的主要工作原理是通过一个轻量级的、可训练的时序感知语义连接器(TSC)模块,将强大的LLM的语义理解能力与现有的图像生成扩散模型相结合,从而在不重新训练整个系统的情况下,提高模型对复杂文本提示的理解和图像生成的质量。

ELLA – 腾讯推出的扩散模型适配器,可增强语义对齐  第1张
(图片来源网络,侵删)
ELLA – 腾讯推出的扩散模型适配器,可增强语义对齐  第2张
(图片来源网络,侵删)