Evaluating Text-to-Visual Generation with Image-to-Text Generation¶
会议: ECCV 2024
arXiv: 2404.01291
代码: 有 (开源数据、模型和代码)
领域: Video Understanding
关键词: 文本-视觉生成评估, VQAScore, 图文对齐, 组合性提示, GenAI-Bench
一句话总结¶
提出VQAScore,利用VQA模型替代CLIP来评估文本-视觉生成质量,在复杂组合性提示上大幅超越CLIPScore,并发布GenAI-Bench基准。
研究背景与动机¶
文本到图像/视频的生成模型(如Stable Diffusion、DALL-E 3)飞速发展,但如何可靠地评估生成质量仍是一个未解决的关键问题。目前最广泛使用的评估指标CLIPScore存在根本性缺陷——CLIP的文本编码器本质上是一个"词袋模型"(bag of words),无法区分语义结构不同但词汇相同的提示。例如,"马在吃草"和"草在吃马"会得到相似的CLIPScore,这显然是不合理的。
核心问题在于:(1) CLIPScore对涉及组合关系(如空间关系、属性绑定、动作关系等)的复杂提示评估不准确;(2) 现有的改进方案(如使用更大的CLIP模型或引入额外的解析器)要么提升有限,要么过于复杂;(3) 缺少针对组合性生成的高质量评估基准。
本文提出了一个反直觉但极为有效的解决方案:使用图像到文本的VQA模型来评估文本到图像的生成质量。核心idea是将评估问题转化为一个简单的视觉问答问题——"这张图是否展示了'{text}'?",通过计算VQA模型回答"Yes"的概率作为对齐分数。
方法详解¶
整体框架¶
VQAScore评估框架的pipeline非常简洁:(1) 给定生成的图像和文本提示;(2) 将文本提示嵌入模板问题"Does this figure show '{text}'?"中;(3) 使用VQA模型计算回答"Yes"的概率;(4) 该概率即为VQAScore对齐分数。
关键设计¶
-
VQAScore评估指标:
- 功能:准确度量生成图像与文本提示的语义对齐程度
- 核心思路:利用VQA模型的视觉-语言推理能力,将对齐评估转化为二元问答任务。VQA模型通过联合处理图像和文本来判断语义一致性,避免了CLIP中图像和文本独立编码导致的组合性理解缺陷
- 设计动机:VQA模型天然具备组合性推理能力(理解"谁对谁做了什么"),这正是CLIPScore所缺少的
-
CLIP-FlanT5自研模型:
- 功能:进一步提升VQAScore的性能
- 核心思路:训练一个双向图像-问题编码器。与标准VQA模型不同,CLIP-FlanT5允许图像embedding依赖于问题内容(反之亦然),实现更深度的跨模态交互。使用FlanT5作为语言模型backbone,结合CLIP视觉编码器
- 设计动机:标准的单向编码忽略了问题内容对图像理解的引导作用,双向编码器能捕获更细粒度的图文交互
-
GenAI-Bench基准:
- 功能:提供更具挑战性的组合性文本-视觉生成评估基准
- 核心思路:包含1,600个组合性文本提示,涵盖场景解析、对象识别、属性绑定、关系推理和高阶逻辑推理等维度。收集超过15,000个人类评分,覆盖Stable Diffusion、DALL-E 3、Gen2等主流生成模型
- 设计动机:现有评估基准的文本提示过于简单,无法充分测试生成模型的组合性理解能力
损失函数 / 训练策略¶
CLIP-FlanT5使用标准的VQA训练目标,在大规模图像-文本对上进行训练。关键策略包括:使用双向注意力机制替代单向注意力;仅使用图像数据训练但发现能泛化到视频和3D模型评估。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文(VQAScore) | CLIPScore | 提升 |
|---|---|---|---|---|
| 8个图文对齐基准 | Kendall τ | SOTA | 次优 | 平均+15-25% |
| Winoground | Accuracy | 显著领先 | 约50%(随机) | +20-30% |
| GenAI-Bench | 人类相关性 | 最优 | 较低 | 显著提升 |
| 视频对齐 | Kendall τ | 可用 | 不适用 | 跨模态泛化 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 不同VQA模型 | 性能差异 | 更大的VQA模型表现更好 |
| 不同问题模板 | 鲁棒 | VQAScore对模板选择鲁棒 |
| CLIP-FlanT5 vs GPT-4V | 领先或持平 | 开源模型超越专有模型 |
| 图像 vs 视频 vs 3D | 均有效 | 仅用图像训练可泛化到其他模态 |
关键发现¶
- VQAScore在所有8个图文对齐基准上均达到SOTA,尽管方法极其简单
- 开源的CLIP-FlanT5甚至超越了使用GPT-4V的基线方法
- VQAScore可泛化到视频和3D模型评估,展示了强大的跨模态能力
- GenAI-Bench揭示了当前生成模型在组合性理解上的重大缺陷
亮点与洞察¶
- 核心思想极为简洁高效——一个简单的VQA问答就能大幅超越复杂的评估方法
- 揭示了一个重要的方法论洞察:评估文本到图像的生成,反而可以用图像到文本的模型
- CLIP-FlanT5作为开源替代品超越GPT-4V,降低了评估成本
- 引用量高达411次,说明了该工作的广泛影响力
局限性 / 可改进方向¶
- VQAScore仍然依赖VQA模型的质量,对于VQA模型困难的场景可能失效
- "Does this figure show..." 这样的问题模板可能对某些类型的提示不够灵活
- GenAI-Bench主要关注英文提示,对多语言场景未做评估
- 未探讨VQAScore在细粒度美学质量评估(如构图、色彩)方面的能力
相关工作与启发¶
- CLIPScore: Hessel et al.的经典评估方法,广泛使用但存在组合性缺陷
- TIFA: 使用LLM生成问题后通过VQA评估,比VQAScore复杂得多
- DSG: 通过依赖解析和场景图进行评估,需要额外的解析步骤
- 启发:有时最简单的方法反而最有效;评估和生成可以通过反向模型建立联系
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用VQA评估T2I生成的idea极简但极有效,影响力巨大
- 实验充分度: ⭐⭐⭐⭐⭐ 8个基准、多模态泛化、人类评估、新benchmark,非常全面
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,动机阐述有力
- 价值: ⭐⭐⭐⭐⭐ 411次引用证明了其广泛的实际影响力
相关论文¶
- [ECCV 2024] Text-Guided Video Masked Autoencoder
- [CVPR 2026] Hear What Matters! Text-conditioned Selective Video-to-Audio Generation
- [ECCV 2024] Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data
- [ECCV 2024] R²-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding
- [ECCV 2024] Spherical World-Locking for Audio-Visual Localization in Egocentric Videos