X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。

X-baidu09Prompt – 用于多模态视频目标分割的通用框架  第1张
(图片来源网络,侵删)
X-baidu09Prompt – 用于多模态视频目标分割的通用框架  第2张
(图片来源网络,侵删)