VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架

baidu09_com 2025-08-31 8 0

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架，基于大型视觉语言模型（LVLM）直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集，用长短期记忆采样策略平衡历史和当前观测。框架训练分为两阶段，监督微调（SFT）让模型动作序列文本预测与专家演示对齐，强化微调（RFT）基于时间衰减奖励（TDR）机制优化多步未来动作。VLN-R1在VLN-CE基准测试中表现强劲，证明LVLM在具身导航中的有效性，提升任务特定推理能力，且数据效率高。