VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

baidu09_com 2025-08-31 10 0

VQAScore是CMU和Meta联合推出的评估方法，基于视觉问答（VQA）模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率，评估图像与文本提示的对齐程度。VQAScore的核心优势在于无需额外人类标注，直接用现有的VQA模型，用概率值的形式提供更精确的评估结果，超越传统评估指标如CLIPScore。VQAScore已被应用于多个项目中如Imagen3，用于自动评估和优化最新的生成式模型。