跳转至

Evaluating Text-to-Visual Generation with Image-to-Text Generation

会议: ECCV 2024
arXiv: 2404.01291
代码: 有 (开源数据、模型和代码)
领域: Video Understanding
关键词: 文本-视觉生成评估, VQAScore, 图文对齐, 组合性提示, GenAI-Bench

一句话总结

提出VQAScore,利用VQA模型替代CLIP来评估文本-视觉生成质量,在复杂组合性提示上大幅超越CLIPScore,并发布GenAI-Bench基准。

研究背景与动机

文本到图像/视频的生成模型(如Stable Diffusion、DALL-E 3)飞速发展,但如何可靠地评估生成质量仍是一个未解决的关键问题。目前最广泛使用的评估指标CLIPScore存在根本性缺陷——CLIP的文本编码器本质上是一个"词袋模型"(bag of words),无法区分语义结构不同但词汇相同的提示。例如,"马在吃草"和"草在吃马"会得到相似的CLIPScore,这显然是不合理的。

核心问题在于:(1) CLIPScore对涉及组合关系(如空间关系、属性绑定、动作关系等)的复杂提示评估不准确;(2) 现有的改进方案(如使用更大的CLIP模型或引入额外的解析器)要么提升有限,要么过于复杂;(3) 缺少针对组合性生成的高质量评估基准。

本文提出了一个反直觉但极为有效的解决方案:使用图像到文本的VQA模型来评估文本到图像的生成质量。核心idea是将评估问题转化为一个简单的视觉问答问题——"这张图是否展示了'{text}'?",通过计算VQA模型回答"Yes"的概率作为对齐分数。

方法详解

整体框架

VQAScore评估框架的pipeline非常简洁:(1) 给定生成的图像和文本提示;(2) 将文本提示嵌入模板问题"Does this figure show '{text}'?"中;(3) 使用VQA模型计算回答"Yes"的概率;(4) 该概率即为VQAScore对齐分数。

关键设计

  1. VQAScore评估指标:

    • 功能:准确度量生成图像与文本提示的语义对齐程度
    • 核心思路:利用VQA模型的视觉-语言推理能力,将对齐评估转化为二元问答任务。VQA模型通过联合处理图像和文本来判断语义一致性,避免了CLIP中图像和文本独立编码导致的组合性理解缺陷
    • 设计动机:VQA模型天然具备组合性推理能力(理解"谁对谁做了什么"),这正是CLIPScore所缺少的
  2. CLIP-FlanT5自研模型:

    • 功能:进一步提升VQAScore的性能
    • 核心思路:训练一个双向图像-问题编码器。与标准VQA模型不同,CLIP-FlanT5允许图像embedding依赖于问题内容(反之亦然),实现更深度的跨模态交互。使用FlanT5作为语言模型backbone,结合CLIP视觉编码器
    • 设计动机:标准的单向编码忽略了问题内容对图像理解的引导作用,双向编码器能捕获更细粒度的图文交互
  3. GenAI-Bench基准:

    • 功能:提供更具挑战性的组合性文本-视觉生成评估基准
    • 核心思路:包含1,600个组合性文本提示,涵盖场景解析、对象识别、属性绑定、关系推理和高阶逻辑推理等维度。收集超过15,000个人类评分,覆盖Stable Diffusion、DALL-E 3、Gen2等主流生成模型
    • 设计动机:现有评估基准的文本提示过于简单,无法充分测试生成模型的组合性理解能力

损失函数 / 训练策略

CLIP-FlanT5使用标准的VQA训练目标,在大规模图像-文本对上进行训练。关键策略包括:使用双向注意力机制替代单向注意力;仅使用图像数据训练但发现能泛化到视频和3D模型评估。

实验关键数据

主实验

数据集 指标 本文(VQAScore) CLIPScore 提升
8个图文对齐基准 Kendall τ SOTA 次优 平均+15-25%
Winoground Accuracy 显著领先 约50%(随机) +20-30%
GenAI-Bench 人类相关性 最优 较低 显著提升
视频对齐 Kendall τ 可用 不适用 跨模态泛化

消融实验

配置 关键指标 说明
不同VQA模型 性能差异 更大的VQA模型表现更好
不同问题模板 鲁棒 VQAScore对模板选择鲁棒
CLIP-FlanT5 vs GPT-4V 领先或持平 开源模型超越专有模型
图像 vs 视频 vs 3D 均有效 仅用图像训练可泛化到其他模态

关键发现

  • VQAScore在所有8个图文对齐基准上均达到SOTA,尽管方法极其简单
  • 开源的CLIP-FlanT5甚至超越了使用GPT-4V的基线方法
  • VQAScore可泛化到视频和3D模型评估,展示了强大的跨模态能力
  • GenAI-Bench揭示了当前生成模型在组合性理解上的重大缺陷

亮点与洞察

  • 核心思想极为简洁高效——一个简单的VQA问答就能大幅超越复杂的评估方法
  • 揭示了一个重要的方法论洞察:评估文本到图像的生成,反而可以用图像到文本的模型
  • CLIP-FlanT5作为开源替代品超越GPT-4V,降低了评估成本
  • 引用量高达411次,说明了该工作的广泛影响力

局限与展望

  • VQAScore仍然依赖VQA模型的质量,对于VQA模型困难的场景可能失效
  • "Does this figure show..." 这样的问题模板可能对某些类型的提示不够灵活
  • GenAI-Bench主要关注英文提示,对多语言场景未做评估
  • 未探讨VQAScore在细粒度美学质量评估(如构图、色彩)方面的能力

相关工作与启发

  • CLIPScore: Hessel et al.的经典评估方法,广泛使用但存在组合性缺陷
  • TIFA: 使用LLM生成问题后通过VQA评估,比VQAScore复杂得多
  • DSG: 通过依赖解析和场景图进行评估,需要额外的解析步骤
  • 启发:有时最简单的方法反而最有效;评估和生成可以通过反向模型建立联系

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用VQA评估T2I生成的idea极简但极有效,影响力巨大
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个基准、多模态泛化、人类评估、新benchmark,非常全面
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,动机阐述有力
  • 价值: ⭐⭐⭐⭐⭐ 411次引用证明了其广泛的实际影响力

相关论文