Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视觉推理领域表现突出,同时在数学、代码和文本推理方面也处于第一梯队。采用多模态联合强化学习,基于 PPO 策略在图像空间引入可验证奖励机制,提升泛化性和鲁棒性。通过多模态合成数据训练,有效解决了训练中的跷跷板问题。

Step-baidu09R1-baidu09V-baidu09Mini – 阶跃星辰最新推出的多模态推理模型  第1张
(图片来源网络,侵删)
Step-baidu09R1-baidu09V-baidu09Mini – 阶跃星辰最新推出的多模态推理模型  第2张
(图片来源网络,侵删)