QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多模态理解和推理任务上展现了强大的能力。能准确理解图像内容,进行复杂的逐步推理,支持从图片中推断物体高度、数量等具体信息,能识别图片的深层含义,如“梗图”内涵。

QVQ-72B-Preview 在以下四个数据集上进行了评估:

QVQ-baidu0972B-baidu09Preview – 阿里通义开源的多模态推理模型  第1张
(图片来源网络,侵删)
QVQ-baidu0972B-baidu09Preview – 阿里通义开源的多模态推理模型  第2张
(图片来源网络,侵删)