VQAScore是CMU和Meta联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore的核心优势在于无需额外人类标注,直接用现有的VQA模型,用概率值的形式提供更精确的评估结果,超越传统评估指标如CLIPScore。VQAScore已被应用于多个项目中如Imagen3,用于自动评估和优化最新的生成式模型。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论