SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局,标注出房间结构、家具摆放、通道宽度等信息。模型基于大语言模型框架,结合点云重建和结构化表示技术,将视频中的场景转化为结构化的 3D 模型,为具身智能训练提供了高效的基础框架。

SpatialLM – 群核科技开源的空间理解多模态模型  第1张
(图片来源网络,侵删)
SpatialLM – 群核科技开源的空间理解多模态模型  第2张
(图片来源网络,侵删)