Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型,提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的表现。模型通过引入对象的细粒度属性描述,基于对比学习对齐视觉对象与类别名称的表示,解决了传统模型中视觉对象与细粒度子类别未对齐的问题。

Finedefics – 北大团队推出的细粒度多模态大模型  第1张
(图片来源网络,侵删)
Finedefics – 北大团队推出的细粒度多模态大模型  第2张
(图片来源网络,侵删)