R1-baidu09Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-baidu09VL 微调

baidu09_com 2025-08-30 8 0

R1-Onevision 是开源的多模态大语言模型，专注于复杂视觉推理任务。基于微调而成，通过整合视觉和文本数据，能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推理等领域表现出色，在多项推理基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。能同时处理图像和文本输入，通过先进的 embedding 技术实现高效的信息提取与关联。训练数据集涵盖了自然场景、科学、数学问题、OCR 内容和复杂图表等多个领域，进一步提升了模型的推理能力。