VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集,用长短期记忆采样策略平衡历史和当前观测。框架训练分为两阶段,监督微调(SFT)让模型动作序列文本预测与专家演示对齐,强化微调(RFT)基于时间衰减奖励(TDR)机制优化多步未来动作。VLN-R1在VLN-CE基准测试中表现强劲,证明LVLM在具身导航中的有效性,提升任务特定推理能力,且数据效率高。

VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架  第1张
(图片来源网络,侵删)
VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架  第2张
(图片来源网络,侵删)