Insight-baidu09V – 提升长链视觉推理能力的多模态模型

baidu09_com 2025-08-29 8 0

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型，能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流程生产高质量的推理数据，采用多智能体系统将视觉推理任务分解为推理和总结两个步骤，结合两阶段训练流程，显著提高模型在视觉推理基准测试中的表现。Insight-V的设计包括渐进式数据生成、多粒度评估和迭代DPO算法，让系统在复杂的视觉推理任务中展现出色性能。