Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

baidu09_com 2025-08-29 7 0

Gemini Robotics 是谷歌 DeepMind 推出的基于的机器人项目，将大型多模态模型的能力引入物理世界。项目包含两个主要模型：Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型（VLM），具备强大的具身推理能力，支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。Gemini Robotics 是视觉-语言-动作（VLA）模型，支持直接控制机器人完成复杂的操作任务，表现出对物体类型和位置变化的鲁棒性，执行开放词汇指令。基于进一步的微调，Gemini Robotics 能解决长时域、高灵活性的任务（如折纸或玩牌），快速适应新任务和机器人形态。