LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。经过20小时微调,LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能,超越PixArt-α和Kandinsky v2.2等先进模型。


LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。经过20小时微调,LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能,超越PixArt-α和Kandinsky v2.2等先进模型。
全部评论
留言在赶来的路上...
发表评论