Evaluating Text-to-Visual Generation with Image-to-Text Generation¶

会议: ECCV 2024
arXiv: 2404.01291
代码: 有 (开源数据、模型和代码)
领域: Video Understanding
关键词: 文本-视觉生成评估, VQAScore, 图文对齐, 组合性提示, GenAI-Bench

一句话总结¶

提出VQAScore，利用VQA模型替代CLIP来评估文本-视觉生成质量，在复杂组合性提示上大幅超越CLIPScore，并发布GenAI-Bench基准。

研究背景与动机¶

文本到图像/视频的生成模型（如Stable Diffusion、DALL-E 3）飞速发展，但如何可靠地评估生成质量仍是一个未解决的关键问题。目前最广泛使用的评估指标CLIPScore存在根本性缺陷——CLIP的文本编码器本质上是一个"词袋模型"（bag of words），无法区分语义结构不同但词汇相同的提示。例如，"马在吃草"和"草在吃马"会得到相似的CLIPScore，这显然是不合理的。

核心问题在于：(1) CLIPScore对涉及组合关系（如空间关系、属性绑定、动作关系等）的复杂提示评估不准确；(2) 现有的改进方案（如使用更大的CLIP模型或引入额外的解析器）要么提升有限，要么过于复杂；(3) 缺少针对组合性生成的高质量评估基准。

本文提出了一个反直觉但极为有效的解决方案：使用图像到文本的VQA模型来评估文本到图像的生成质量。核心idea是将评估问题转化为一个简单的视觉问答问题——"这张图是否展示了'{text}'？"，通过计算VQA模型回答"Yes"的概率作为对齐分数。

方法详解¶

整体框架¶

VQAScore评估框架的pipeline非常简洁：(1) 给定生成的图像和文本提示；(2) 将文本提示嵌入模板问题"Does this figure show '{text}'?"中；(3) 使用VQA模型计算回答"Yes"的概率；(4) 该概率即为VQAScore对齐分数。

关键设计¶

VQAScore评估指标:
- 功能：准确度量生成图像与文本提示的语义对齐程度
- 核心思路：利用VQA模型的视觉-语言推理能力，将对齐评估转化为二元问答任务。VQA模型通过联合处理图像和文本来判断语义一致性，避免了CLIP中图像和文本独立编码导致的组合性理解缺陷
- 设计动机：VQA模型天然具备组合性推理能力（理解"谁对谁做了什么"），这正是CLIPScore所缺少的
CLIP-FlanT5自研模型:
- 功能：进一步提升VQAScore的性能
- 核心思路：训练一个双向图像-问题编码器。与标准VQA模型不同，CLIP-FlanT5允许图像embedding依赖于问题内容（反之亦然），实现更深度的跨模态交互。使用FlanT5作为语言模型backbone，结合CLIP视觉编码器
- 设计动机：标准的单向编码忽略了问题内容对图像理解的引导作用，双向编码器能捕获更细粒度的图文交互
GenAI-Bench基准:
- 功能：提供更具挑战性的组合性文本-视觉生成评估基准
- 核心思路：包含1,600个组合性文本提示，涵盖场景解析、对象识别、属性绑定、关系推理和高阶逻辑推理等维度。收集超过15,000个人类评分，覆盖Stable Diffusion、DALL-E 3、Gen2等主流生成模型
- 设计动机：现有评估基准的文本提示过于简单，无法充分测试生成模型的组合性理解能力

损失函数 / 训练策略¶

CLIP-FlanT5使用标准的VQA训练目标，在大规模图像-文本对上进行训练。关键策略包括：使用双向注意力机制替代单向注意力；仅使用图像数据训练但发现能泛化到视频和3D模型评估。

实验关键数据¶

主实验¶

数据集	指标	本文(VQAScore)	CLIPScore	提升
8个图文对齐基准	Kendall τ	SOTA	次优	平均+15-25%
Winoground	Accuracy	显著领先	约50%（随机）	+20-30%
GenAI-Bench	人类相关性	最优	较低	显著提升
视频对齐	Kendall τ	可用	不适用	跨模态泛化

消融实验¶

配置	关键指标	说明
不同VQA模型	性能差异	更大的VQA模型表现更好
不同问题模板	鲁棒	VQAScore对模板选择鲁棒
CLIP-FlanT5 vs GPT-4V	领先或持平	开源模型超越专有模型
图像 vs 视频 vs 3D	均有效	仅用图像训练可泛化到其他模态

关键发现¶

VQAScore在所有8个图文对齐基准上均达到SOTA，尽管方法极其简单
开源的CLIP-FlanT5甚至超越了使用GPT-4V的基线方法
VQAScore可泛化到视频和3D模型评估，展示了强大的跨模态能力
GenAI-Bench揭示了当前生成模型在组合性理解上的重大缺陷

亮点与洞察¶

核心思想极为简洁高效——一个简单的VQA问答就能大幅超越复杂的评估方法
揭示了一个重要的方法论洞察：评估文本到图像的生成，反而可以用图像到文本的模型
CLIP-FlanT5作为开源替代品超越GPT-4V，降低了评估成本
引用量高达411次，说明了该工作的广泛影响力

局限性 / 可改进方向¶

VQAScore仍然依赖VQA模型的质量，对于VQA模型困难的场景可能失效
"Does this figure show..." 这样的问题模板可能对某些类型的提示不够灵活
GenAI-Bench主要关注英文提示，对多语言场景未做评估
未探讨VQAScore在细粒度美学质量评估（如构图、色彩）方面的能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用VQA评估T2I生成的idea极简但极有效，影响力巨大
实验充分度: ⭐⭐⭐⭐⭐ 8个基准、多模态泛化、人类评估、新benchmark，非常全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，动机阐述有力
价值: ⭐⭐⭐⭐⭐ 411次引用证明了其广泛的实际影响力