Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据,避免直接生成机器人视频的复杂性。Gen2Act的核心在于零样本的人类视频生成,结合预训练的视频生成模型和少量的机器人交互数据训练策略。在真实世界的应用中,Gen2Act展现强大的泛化能力,能操作未见过的物体类型并执行新的动作,相较于其他方法,成功率显著提升。Gen2Act支持复杂任务的长时执行,例如连续完成“制作咖啡”等多步骤活动。这一方法减少了对大规模机器人数据采集的需求,用闭环策略动态调整提高操作的准确性。


全部评论
留言在赶来的路上...
发表评论