QVQ – 阿里通义开源的视觉推理模型

baidu09_com 2025-08-30 7 0

QVQ是阿里基于-72B构建的开源多模态推理模型，结合视觉理解和复杂问题解决能力，提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。QVQ在MMMU评测中取得了70.3的高分，在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct 有显著提升。QVQ致力实现全能和智能的模型，能深度思考和推理，应对复杂挑战，参与科学探索。

QVQ-72B-Preview 是 Qwen 团队推出的实验性研究模型，专注于增强视觉推理能力。尽管表现超出了预期，有几个限制需要注意：