VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能系统地测试和提高MLLMs在视觉空间智能方面的表现。


全部评论
留言在赶来的路上...
发表评论