跳转至

FineMatch: Aspect-Based Fine-Grained Image and Text Mismatch Detection and Correction

会议: ECCV 2024
arXiv: 2404.14715
代码: https://hanghuacs.github.io/finematch/
领域: LLM/NLP
关键词: 视觉语言模型, 组合性评估, 图文不匹配检测, 细粒度匹配, 文生图幻觉校正

一句话总结

提出 FineMatch benchmark,要求模型识别图文对中不匹配的方面短语(Entity/Relation/Attribute/Number)、确定类别并提出修正,构建了 49,906 个人工标注样本,并提出 ITM-IoU 评估指标和 AutoAlign 文生图幻觉检测校正系统。

研究背景与动机

  • VLM 组合性不足: 现有 VLM(包括 GPT-4V)在细粒度组合性信息理解上仍存在显著不足
  • 现有评估的局限:
    • 大多聚焦于句子级硬负样本识别(如 ARO, Winoground, SUGARCREPE)
    • 忽略了定位不匹配短语和提供修正的能力
    • 句子级评估对当下模型可能过于简单
  • 缺失的任务定义: 没有 benchmark 同时要求检测不匹配方面、分类和修正

方法详解

整体框架

FineMatch 任务定义: - 不匹配检测 (MD): 给定图-文对 \((I, C)\),预测不匹配的方面短语集合及其类别 \(\{(c_j, p_j)\}\) - 不匹配检测与修正 (MD&C): 额外预测对应修正 \(\{(c_j, p_j, o_j)\}\) - 每个图-文对可含 0-3 个不匹配方面

四类不匹配方面: Entity(实体), Relation(关系), Attribute(属性), Number(数量)

关键设计

  1. 数据构建(多源融合):

    • GPT 合成文本: 将 caption 解析为 Aspect Graph(节点=方面实体, 边=关系),用 GPT-4 替换节点生成不匹配 caption,保持句法结构。用 Vera Score + Grammar Score + CLIP Score 过滤后人工标注
    • 检索图-文数据: 从 LAION-400M/COYO-700M 等检索与复杂文本查询相似但不完全匹配的图像
    • SD 生成图像: 用 T2I-CompBench 的 prompt 通过 Stable Diffusion 2.1 生成可能不匹配的图像
  2. ITM-IoU 评估指标:

    • 对每个预测三元组,综合评估: 类别 EM + 检测得分(BERTScore + chrF 平均)+ 修正得分(BERTScore)
    • 设阈值 T=0.55 判断预测与 GT 是否匹配
    • 计算预测集合与 GT 集合的 IoU
    • 实验证明与人工评估高度相关
  3. AutoAlign 幻觉校正系统:

    • 用 FineMatch 微调的 LLaVA-1.6 检测生成图像与 prompt 的不匹配
    • GPT-4 生成图像编辑指令
    • MagicBrush 执行图像编辑
    • 迭代执行直到图像与 prompt 对齐

损失函数 / 训练策略

在 visual instruction tuning 设置下训练: $\(\mathcal{L} = -\sum_{\mathcal{D}} \sum_{t=1}^{M} \log p(P_t | [C_i : I_i], P_{\leq t-1})\)$

标准自回归生成损失,输入为图像+caption,输出为不匹配方面三元组序列。

实验关键数据

主实验 (Visual Instruction Tuning)

模型 参数量 MD (ITM-IoU)↑ MD&C (ITM-IoU)↑
OFA-Large 472M 19.72 21.35
MiniGPT-4-V2 7B 51.18 55.95
LLaVA-1.5 7B 62.25 63.62
LLaVA-1.5 13B 66.02 67.13
LLaVA-1.6-Vicuna 13B 66.10 67.31
人类表现 - 88.32 89.19

In-Context Learning 实验

模型 MD (ITM-IoU)↑ MD&C (ITM-IoU)↑
OpenFlamingo (9B) 0.34 0.96
Emu2 (37B) 6.10 11.23
Gemini Pro Vision 9.07 11.14
GPT-4V 21.92 21.58

关键发现

  • 在 FineMatch 上训练显著提升细粒度检测能力: LLaVA-1.5-13B (66.02) 大幅超越 GPT-4V 的 ICL 表现 (21.92)
  • GPT-4V 在此任务上并不出色: 即便作为最强的 ICL 模型,ITM-IoU 仅 21.92,远低于有监督方法
  • 模型规模和数据质量均重要: 更大的 LM (7B→13B) 和更好的预训练数据 (ShareGPT4V) 都带来提升
  • 人类-机器差距显著: 最强模型仅达人类 75% 的水平,任务有足够挑战性

亮点与洞察

  1. 开放集不匹配检测: 不限定预定义类别集合,比 ARO 的 48 关系/117 属性对更具泛化性
  2. 端到端检测+修正: 不需要 VQA 流程的多步骤(先生成问题再回答),直接生成三元组
  3. Aspect Graph 解析: 优雅的数据构建方法——保持句法结构仅替换语义节点,减少 artifact bias
  4. 数据去偏: 通过 Vera Score + Grammar Score + CLIP Score 过滤 + 人工标注,系统化解决 GPT 生成数据的偏差

局限性 / 可改进方向

  • 每个不匹配方面仅提供一种可能的修正,实际上可能有多种合理修正
  • 微调 VLM 后仍未达到人类水平,需要更好的指令跟随数据设计
  • AutoAlign 系统依赖多个外部模型(GPT-4, MagicBrush),链路较长
  • 部分图像内容可能被 GPT-4V/Gemini 判定为敏感内容而拒绝处理
  • 评估指标中的阈值 T 和权重 \(W_{Ca}, W_{De}, W_{Co}\) 需要进一步验证

相关工作与启发

  • 与 VL-CheckList、ARO、SUGARCREPE 等组合性 benchmark 形成递进——从句子级到短语级+修正
  • ITM-IoU 指标的设计可推广到其他结构化预测评估场景
  • AutoAlign 系统展示了 VLM 用于 T2I 生成质量控制的新范式

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首个要求细粒度不匹配检测+修正的 benchmark
  • 技术深度: ⭐⭐⭐⭐ — 数据构建、评估指标和系统设计都有深度
  • 实验质量: ⭐⭐⭐⭐⭐ — 覆盖有监督和 ICL,含人工评估和相关性验证
  • 实用性: ⭐⭐⭐⭐ — AutoAlign 有实际应用场景
  • 综合推荐: ⭐⭐⭐⭐⭐

相关论文