OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,通过结合视觉语言模型(VLM)的高层次推理能力和精确的三维操作能力,实现机器人在非结构化环境中的通用操作。框架的核心在于以对象为中心的交互基元表示法,通过将任务分解为多个结构化阶段,基于 VLM 提供的常识推理能力,将自然语言指令转化为可执行的三维空间约束。

OmniManip – 智元机器人联合北大推出的通用机器人操作框架  第1张
(图片来源网络,侵删)
OmniManip – 智元机器人联合北大推出的通用机器人操作框架  第2张
(图片来源网络,侵删)