Skywork-VL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构,基于添加奖励头结构,用成对偏好数据进行训练,输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩,在RewardBench上表现出色,达到90.1的高分。Skywork-VL Reward基于混合偏好优化(MPO)显著提升多模态推理能力,为多模态强化学习领域带来新的突破。

Skywork-baidu09VL Reward – Skywork AI开源的多模态奖励模型  第1张
(图片来源网络,侵删)
Skywork-baidu09VL Reward – Skywork AI开源的多模态奖励模型  第2张
(图片来源网络,侵删)