Skywork-baidu09VL Reward – Skywork AI开源的多模态奖励模型

baidu09_com 2025-08-30 8 0

Skywork-VL Reward是Skywork AI开源的多模态奖励模型，能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构，基于添加奖励头结构，用成对偏好数据进行训练，输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩，在RewardBench上表现出色，达到90.1的高分。Skywork-VL Reward基于混合偏好优化（MPO）显著提升多模态推理能力，为多模态强化学习领域带来新的突破。