LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

baidu09_com 2025-08-29 7 0

LongAlign是香港大学研究团队推出的文本到图像（T2I）扩散模型的改进方法，能提升长文本输入的对齐精度。LongAlign用段级编码技术，将长文本分割处理，适应编码模型的输入限制。同时引入分解偏好优化，基于区分偏好模型中的文本相关和无关部分，应用不同权重减少过拟合，增强对齐度。经过20小时微调，LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能，超越PixArt-α和Kandinsky v2.2等先进模型。