跳转至

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

会议: CVPR 2026
arXiv: 2603.17662
代码: https://explainableml.github.io/finer-project/
领域: 多模态VLM
关键词: MLLM幻觉, 细粒度负查询, DPO, 场景图, 幻觉基准

一句话总结

发现 MLLM 在细粒度负查询(涉及多个对象/属性/关系的查询中仅有一个细微错误)下幻觉率急剧上升,提出 FINER 基准和 FINER-Tuning 方法(基于 DPO),在 InternVL3.5-14B 上最高提升 24.2%。

研究背景与动机

  1. 领域现状:MLLM 的幻觉问题已被广泛研究,现有基准(POPE、DASH、AMBER)主要关注粗粒度查询,如单个物体是否存在。
  2. 现有痛点:真实场景下用户的查询往往是精细的——涉及多个对象、多个属性、多个关系。当查询越精细,模型越容易被"大部分正确"的内容误导而回答"是"。
  3. 核心矛盾:查询粒度与幻觉率之间存在强正相关。InternVL3.5-14B 在粒度1时准确率约80%,到粒度5-7时骤降至约20%。
  4. 本文要解决什么? (a) 系统研究细粒度负查询下的幻觉行为;(b) 提出能有效缓解细粒度幻觉的训练方法。
  5. 切入角度:模拟人类构句过程(先说物体→加属性→加关系),构建渐进精细的负查询来系统化地暴露幻觉。
  6. 核心idea:用场景图驱动构建精细负查询基准,配合 DPO 训练让模型学会检测查询中的细微错误。

方法详解

整体框架

基准构建:从图像的场景图(对象+属性+关系)出发,通过替换其中一个元素的负版本生成负查询,组成配对的正/负多选题。训练方法:用 Pixmo 数据集生成 FINER 风格的偏好数据,通过 DPO 训练模型。

关键设计

  1. FINER 基准(FINER-CompreCap + FINER-DOCCI):
  2. 做什么:构建涵盖多对象(Multi-obj)、多属性(Multi-attr)、多关系(Multi-rel)和 Wh-问题四种设置的细粒度基准
  3. 核心思路:从正场景图出发,为每个元素用 LLM 生成4个语义合理但图中不存在的负替换(如"door frame"→"pillar"),再通过模板组合成正/负多选题
  4. 设计动机:用多选题替代简单Yes/No,避免模型偏好偏差;配对正/负查询要求两个都答对才算正确(paired accuracy)

  5. 负样本质量验证:

  6. 做什么:确保生成的负元素确实不在图像中
  7. 核心思路:用 Qwen2.5-VL-72B 作为判别器,将正元素混入负元素中,如果判别器无法识别出正元素,说明某些负元素有歧义,需重新生成
  8. 设计动机:负样本质量直接决定基准的可靠性

  9. FINER-Tuning(DPO训练):

  10. 做什么:基于精细正/负查询对构建偏好数据进行 DPO 训练
  11. 核心思路:从 Pixmo 长描述中提取对象/属性/关系短语,用 Phi-4-14B 生成负版本,构造正确答案(接受)和错误答案(拒绝),用 DPO loss 训练:\(\mathcal{L}_{DPO}(\theta) = -\mathbb{E}[\log\sigma(\beta(\Delta_\theta - \Delta_{ref}))]\)
  12. 设计动机:与只在模型回答中避免幻觉不同,FINER-Tuning 教模型检测查询本身的细微错误

训练策略

  • 使用 Pixmo-caption 作为数据源,避免与基准的训练集泄漏
  • 使用 Phi-4-14B(不同于基准构建中的 LLM)生成训练数据
  • DPO 的 \(\beta = 0.1\)

实验关键数据

主实验(FINER-CompreCap,Paired Accuracy)

模型 Multi-obj Multi-attr Multi-rel Wh
Random Guess 4.0 4.0 4.0 4.0
LLaVA-1.6-7B 25.3 13.0 7.6 15.3
+FINER-Tuning 48.4 (+23.1) 38.4 (+25.4) 24.2 (+16.6) 22.1 (+6.8)
InternVL-3.5-8B 75.0 72.5 49.8 23.5
+FINER-Tuning 77.1 (+2.1) 78.9 (+6.4) 64.1 (+14.3) 34.2 (+10.7)
InternVL-3.5-14B 74.5 68.1 47.0 21.8
+FINER-Tuning 80.0 (+5.5) 78.9 (+10.8) 71.2 (+24.2) 30.1 (+8.3)

粒度-准确率关系

查询粒度 InternVL3.5-14B 基线 +FINER-Tuning
Level 1 ~80% ~85%
Level 3 ~50% ~65%
Level 5 ~25% ~50%
Level 7 ~20% ~45%

关键发现

  • 幻觉与查询粒度强相关:粒度越高,正确率越低,证实细粒度查询是 MLLM 的系统性弱点
  • Multi-rel(多关系)是最难的设置,即使强模型基线也低于50%
  • FINER-Tuning 对弱模型(LLaVA-1.6-7B)的提升比强模型更大
  • FINER-Tuning 不仅提升 FINER 基准表现,在现有8个幻觉基准上也同步提升,且通用能力(6个基准)不退化

亮点与洞察

  • 粒度-幻觉相关性的发现非常有洞察力:揭示了 MLLM 被"大部分正确"的信息误导的机制
  • 配对正负查询的评估方式确保模型不能通过偏好"No"来作弊
  • FINER-Tuning 在教模型检测"查询中的错误"而非"回答中的幻觉",视角新颖
  • 数据构建流程可迁移到其他 VQA 鲁棒性评估

局限性 / 可改进方向

  • 负元素的生成依赖 LLM,可能引入系统性偏差
  • 场景图到查询的模板较为固定,不涵盖自然语言的所有表达方式
  • 基准仅关注否定查询,肯定查询的细粒度理解也值得研究
  • DOCCI 的场景图是从长描述中提取的,可能有提取噪声

相关工作与启发

  • vs POPE: POPE 仅测试单物体存在性,FINER 扩展到多元素细粒度否定
  • vs AMBER: AMBER 包含单物体/属性/关系,FINER 把粒度推到多元素组合
  • vs RLAIF-V/OPA-DPO: 这些方法用 DPO 减少模型自身生成的幻觉,FINER-Tuning 专门针对查询中的细微错误

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 粒度-幻觉关系的系统性研究开创了新方向
  • 实验充分度: ⭐⭐⭐⭐ 4个模型+2个基准+8个已有基准+6个通用基准
  • 写作质量: ⭐⭐⭐⭐ 动机分析清晰,数据构建流程详尽
  • 价值: ⭐⭐⭐⭐⭐ 基准和方法对理解和缓解 MLLM 幻觉均有重要价值