FINER: MLLMs Hallucinate under Fine-grained Negative Queries¶
会议: CVPR 2026
arXiv: 2603.17662
代码: https://explainableml.github.io/finer-project/
领域: 多模态VLM
关键词: MLLM幻觉, 细粒度负查询, DPO, 场景图, 幻觉基准
一句话总结¶
发现 MLLM 在细粒度负查询(涉及多个对象/属性/关系的查询中仅有一个细微错误)下幻觉率急剧上升,提出 FINER 基准和 FINER-Tuning 方法(基于 DPO),在 InternVL3.5-14B 上最高提升 24.2%。
研究背景与动机¶
- 领域现状:MLLM 的幻觉问题已被广泛研究,现有基准(POPE、DASH、AMBER)主要关注粗粒度查询,如单个物体是否存在。
- 现有痛点:真实场景下用户的查询往往是精细的——涉及多个对象、多个属性、多个关系。当查询越精细,模型越容易被"大部分正确"的内容误导而回答"是"。
- 核心矛盾:查询粒度与幻觉率之间存在强正相关。InternVL3.5-14B 在粒度1时准确率约80%,到粒度5-7时骤降至约20%。
- 本文要解决什么? (a) 系统研究细粒度负查询下的幻觉行为;(b) 提出能有效缓解细粒度幻觉的训练方法。
- 切入角度:模拟人类构句过程(先说物体→加属性→加关系),构建渐进精细的负查询来系统化地暴露幻觉。
- 核心idea:用场景图驱动构建精细负查询基准,配合 DPO 训练让模型学会检测查询中的细微错误。
方法详解¶
整体框架¶
基准构建:从图像的场景图(对象+属性+关系)出发,通过替换其中一个元素的负版本生成负查询,组成配对的正/负多选题。训练方法:用 Pixmo 数据集生成 FINER 风格的偏好数据,通过 DPO 训练模型。
关键设计¶
- FINER 基准(FINER-CompreCap + FINER-DOCCI):
- 做什么:构建涵盖多对象(Multi-obj)、多属性(Multi-attr)、多关系(Multi-rel)和 Wh-问题四种设置的细粒度基准
- 核心思路:从正场景图出发,为每个元素用 LLM 生成4个语义合理但图中不存在的负替换(如"door frame"→"pillar"),再通过模板组合成正/负多选题
-
设计动机:用多选题替代简单Yes/No,避免模型偏好偏差;配对正/负查询要求两个都答对才算正确(paired accuracy)
-
负样本质量验证:
- 做什么:确保生成的负元素确实不在图像中
- 核心思路:用 Qwen2.5-VL-72B 作为判别器,将正元素混入负元素中,如果判别器无法识别出正元素,说明某些负元素有歧义,需重新生成
-
设计动机:负样本质量直接决定基准的可靠性
-
FINER-Tuning(DPO训练):
- 做什么:基于精细正/负查询对构建偏好数据进行 DPO 训练
- 核心思路:从 Pixmo 长描述中提取对象/属性/关系短语,用 Phi-4-14B 生成负版本,构造正确答案(接受)和错误答案(拒绝),用 DPO loss 训练:\(\mathcal{L}_{DPO}(\theta) = -\mathbb{E}[\log\sigma(\beta(\Delta_\theta - \Delta_{ref}))]\)
- 设计动机:与只在模型回答中避免幻觉不同,FINER-Tuning 教模型检测查询本身的细微错误
训练策略¶
- 使用 Pixmo-caption 作为数据源,避免与基准的训练集泄漏
- 使用 Phi-4-14B(不同于基准构建中的 LLM)生成训练数据
- DPO 的 \(\beta = 0.1\)
实验关键数据¶
主实验(FINER-CompreCap,Paired Accuracy)¶
| 模型 | Multi-obj | Multi-attr | Multi-rel | Wh |
|---|---|---|---|---|
| Random Guess | 4.0 | 4.0 | 4.0 | 4.0 |
| LLaVA-1.6-7B | 25.3 | 13.0 | 7.6 | 15.3 |
| +FINER-Tuning | 48.4 (+23.1) | 38.4 (+25.4) | 24.2 (+16.6) | 22.1 (+6.8) |
| InternVL-3.5-8B | 75.0 | 72.5 | 49.8 | 23.5 |
| +FINER-Tuning | 77.1 (+2.1) | 78.9 (+6.4) | 64.1 (+14.3) | 34.2 (+10.7) |
| InternVL-3.5-14B | 74.5 | 68.1 | 47.0 | 21.8 |
| +FINER-Tuning | 80.0 (+5.5) | 78.9 (+10.8) | 71.2 (+24.2) | 30.1 (+8.3) |
粒度-准确率关系¶
| 查询粒度 | InternVL3.5-14B 基线 | +FINER-Tuning |
|---|---|---|
| Level 1 | ~80% | ~85% |
| Level 3 | ~50% | ~65% |
| Level 5 | ~25% | ~50% |
| Level 7 | ~20% | ~45% |
关键发现¶
- 幻觉与查询粒度强相关:粒度越高,正确率越低,证实细粒度查询是 MLLM 的系统性弱点
- Multi-rel(多关系)是最难的设置,即使强模型基线也低于50%
- FINER-Tuning 对弱模型(LLaVA-1.6-7B)的提升比强模型更大
- FINER-Tuning 不仅提升 FINER 基准表现,在现有8个幻觉基准上也同步提升,且通用能力(6个基准)不退化
亮点与洞察¶
- 粒度-幻觉相关性的发现非常有洞察力:揭示了 MLLM 被"大部分正确"的信息误导的机制
- 配对正负查询的评估方式确保模型不能通过偏好"No"来作弊
- FINER-Tuning 在教模型检测"查询中的错误"而非"回答中的幻觉",视角新颖
- 数据构建流程可迁移到其他 VQA 鲁棒性评估
局限性 / 可改进方向¶
- 负元素的生成依赖 LLM,可能引入系统性偏差
- 场景图到查询的模板较为固定,不涵盖自然语言的所有表达方式
- 基准仅关注否定查询,肯定查询的细粒度理解也值得研究
- DOCCI 的场景图是从长描述中提取的,可能有提取噪声
相关工作与启发¶
- vs POPE: POPE 仅测试单物体存在性,FINER 扩展到多元素细粒度否定
- vs AMBER: AMBER 包含单物体/属性/关系,FINER 把粒度推到多元素组合
- vs RLAIF-V/OPA-DPO: 这些方法用 DPO 减少模型自身生成的幻觉,FINER-Tuning 专门针对查询中的细微错误
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 粒度-幻觉关系的系统性研究开创了新方向
- 实验充分度: ⭐⭐⭐⭐ 4个模型+2个基准+8个已有基准+6个通用基准
- 写作质量: ⭐⭐⭐⭐ 动机分析清晰,数据构建流程详尽
- 价值: ⭐⭐⭐⭐⭐ 基准和方法对理解和缓解 MLLM 幻觉均有重要价值