ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局限性。ViDoRAG用高斯混合模型(GMM)的多模态混合检索策略,动态调整检索结果数量,优化文本和视觉信息的整合。框架中包含Seeker、Inspector和Answer三种智能体,分别负责快速筛选、详细审查和最终答案生成,基于迭代交互逐步细化答案,提升生成质量和一致性。ViDoRAG在ViDoSeek基准数据集上显著优于现有方法,平均性能提升超过10%,展现了在视觉文档检索和推理任务中的高效性和优越性。

ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架  第1张
(图片来源网络,侵删)
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架  第2张
(图片来源网络,侵删)