Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言模型(LLM)的高级推理能力,自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具,包括全局浏览、片段搜索和帧检查,能在不同层次上收集信息,基于迭代推理逐步构建对视频内容的理解。在多个长视频理解基准测试中,Deep Video Discovery均取得最先进的性能,显著提高长视频理解的准确性和效率。

Deep Video Discovery – 微软推出的深度视频探索智能体  第1张
(图片来源网络,侵删)
Deep Video Discovery – 微软推出的深度视频探索智能体  第2张
(图片来源网络,侵删)