R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 微调而成,通过整合视觉和文本数据,能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推理等领域表现出色,在多项推理基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。 能同时处理图像和文本输入,通过先进的 embedding 技术实现高效的信息提取与关联。训练数据集涵盖了自然场景、科学、数学问题、OCR 内容和复杂图表等多个领域,进一步提升了模型的推理能力。

R1-baidu09Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-baidu09VL 微调  第1张
(图片来源网络,侵删)
R1-baidu09Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-baidu09VL 微调  第2张
(图片来源网络,侵删)