Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练,用两阶段训练方法,结合多图像理解和单图像定位能力,实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路,推动多图像理解与细粒度视觉定位的融合。

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型  第1张
(图片来源网络,侵删)
Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型  第2张
(图片来源网络,侵删)