Skywork-VL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构,基于添加奖励头结构,用成对偏好数据进行训练,输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩,在RewardBench上表现出色,达到90.1的高分。Skywork-VL Reward基于混合偏好优化(MPO)显著提升多模态推理能力,为多模态强化学习领域带来新的突破。


Skywork-VL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构,基于添加奖励头结构,用成对偏好数据进行训练,输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩,在RewardBench上表现出色,达到90.1的高分。Skywork-VL Reward基于混合偏好优化(MPO)显著提升多模态推理能力,为多模态强化学习领域带来新的突破。
全部评论
留言在赶来的路上...
发表评论