Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示,能捕捉图像的不同层次和方面的视觉特征,适应多样的下游任务。Florence-VL引进深度-广度融合(DBFusion)技术,将不同深度和多个提示下提取的视觉特征,实现视觉与语言理解的深度融合。

Florence-baidu09VL – 微软和马里兰大学共同开源的多模态大语言模型  第1张
(图片来源网络,侵删)
Florence-baidu09VL – 微软和马里兰大学共同开源的多模态大语言模型  第2张
(图片来源网络,侵删)