Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

baidu09_com 2025-08-30 8 0

Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型（MLLM），专门用在自由形式的多图像定位（Multi-Image Grounding, MIG）任务，设计了大规模训练数据集MGrounding-630k。根据自由形式的查询（如文本描述、图像或两者的组合）在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练，用两阶段训练方法，结合多图像理解和单图像定位能力，实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路，推动多图像理解与细粒度视觉定位的融合。

（图片来源网络，侵删）

（图片来源网络，侵删）

北交大mi s 北交联合是做什么的北交大sqa 北交交大北交大交通学院北京交通大学合作学校北交大官方网站

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://baidu09.com/news/14263.html

Mistral 3.1与Gemma 3对比评测：哪个模型更好？

全部评论

留言在赶来的路上...

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

Mistral 3.1与Gemma 3对比评测：哪个模型更好？

机油压力不足

全部评论

发表评论取消回复

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

Mistral 3.1与Gemma 3对比评测：哪个模型更好？

机油压力不足

全部评论

发表评论取消回复

猜你喜欢