X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。在输入和输出层面,在中间处理层面对齐文本和视觉特征,实现高效的多模态融合。

(图片来源网络,侵删)

(图片来源网络,侵删)
X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。在输入和输出层面,在中间处理层面对齐文本和视觉特征,实现高效的多模态融合。
全部评论
留言在赶来的路上...
发表评论