Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略

baidu09_com 2025-08-29 7 0

Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略，基于预测网络数据中的运动信息来生成人类视频，并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据，避免直接生成机器人视频的复杂性。Gen2Act的核心在于零样本的人类视频生成，结合预训练的视频生成模型和少量的机器人交互数据训练策略。在真实世界的应用中，Gen2Act展现强大的泛化能力，能操作未见过的物体类型并执行新的动作，相较于其他方法，成功率显著提升。Gen2Act支持复杂任务的长时执行，例如连续完成“制作咖啡”等多步骤活动。这一方法减少了对大规模机器人数据采集的需求，用闭环策略动态调整提高操作的准确性。