DINO-baidu09XSeek – IDEA 研究院推出的多模态目标检测模型

baidu09_com 2025-08-28 6 0

DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型，结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标，识别目标的属性（如颜色、形状、动作等）、位置关系及交互情况。模型基于统一视觉模型，用检索式框架，先检测图像中的所有物体，再用大语言模型从候选目标中检索最相关的对象。DINO-XSeek 在自动驾驶、工业制造、智能家居、农业与食品等多个领域有广泛应用，实现安全检测、质量控制、危险行为识别等功能，为复杂场景的目标检测提供更接近人类理解能力的解决方案。