LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。经过20小时微调,LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能,超越PixArt-α和Kandinsky v2.2等先进模型。

LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法  第1张
(图片来源网络,侵删)
LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法  第2张
(图片来源网络,侵删)