MMSearch – 评估大型多模态AI搜索引擎能力的基准测试工具

baidu09_com 2025-08-29 6 0

MMSearch是一个用于评估大型多模态模型（LMMs）作为AI搜索引擎能力的基准测试。包括一个MMSearch-Engine框架和MMSearch测试集，后者包含300个问题，涵盖14个子领域。MMSearch-Engine框架通过问题重构、网页排序和答案总结三个阶段增强LMMs的搜索能力。测试集分为新闻和知识两大类别，确保测试内容与LMMs的训练数据不重叠，提供公平的评估。实验表明，GPT-4o模型在MMSearch基准测试中表现优异，超越商业产品Perplexity Pro。研究发现，增加测试时的计算量比增大模型规模更有效。