FINER: MLLMs Hallucinate under Fine-grained Negative Queries¶

会议: CVPR 2026
arXiv: 2603.17662
代码: https://explainableml.github.io/finer-project/
领域: 多模态VLM
关键词: MLLM幻觉, 细粒度负查询, DPO, 场景图, 幻觉基准

一句话总结¶

发现 MLLM 在细粒度负查询（涉及多个对象/属性/关系的查询中仅有一个细微错误）下幻觉率急剧上升，提出 FINER 基准和 FINER-Tuning 方法（基于 DPO），在 InternVL3.5-14B 上最高提升 24.2%。

基准构建：从图像的场景图（对象+属性+关系）出发，通过替换其中一个元素的负版本生成负查询，组成配对的正/负多选题。训练方法：用 Pixmo 数据集生成 FINER 风格的偏好数据，通过 DPO 训练模型。

FINER 基准（FINER-CompreCap + FINER-DOCCI）:
做什么：构建涵盖多对象(Multi-obj)、多属性(Multi-attr)、多关系(Multi-rel)和 Wh-问题四种设置的细粒度基准
核心思路：从正场景图出发，为每个元素用 LLM 生成4个语义合理但图中不存在的负替换（如"door frame"→"pillar"），再通过模板组合成正/负多选题
设计动机：用多选题替代简单Yes/No，避免模型偏好偏差；配对正/负查询要求两个都答对才算正确（paired accuracy）
负样本质量验证:
做什么：确保生成的负元素确实不在图像中
核心思路：用 Qwen2.5-VL-72B 作为判别器，将正元素混入负元素中，如果判别器无法识别出正元素，说明某些负元素有歧义，需重新生成
设计动机：负样本质量直接决定基准的可靠性
FINER-Tuning（DPO训练）:
做什么：基于精细正/负查询对构建偏好数据进行 DPO 训练
核心思路：从 Pixmo 长描述中提取对象/属性/关系短语，用 Phi-4-14B 生成负版本，构造正确答案（接受）和错误答案（拒绝），用 DPO loss 训练：\(\mathcal{L}_{DPO}(\theta) = -\mathbb{E}[\log\sigma(\beta(\Delta_\theta - \Delta_{ref}))]\)
设计动机：与只在模型回答中避免幻觉不同，FINER-Tuning 教模型检测查询本身的细微错误

模型	Multi-obj	Multi-attr	Multi-rel	Wh
Random Guess	4.0	4.0	4.0	4.0
LLaVA-1.6-7B	25.3	13.0	7.6	15.3
+FINER-Tuning	48.4 (+23.1)	38.4 (+25.4)	24.2 (+16.6)	22.1 (+6.8)
InternVL-3.5-8B	75.0	72.5	49.8	23.5
+FINER-Tuning	77.1 (+2.1)	78.9 (+6.4)	64.1 (+14.3)	34.2 (+10.7)
InternVL-3.5-14B	74.5	68.1	47.0	21.8
+FINER-Tuning	80.0 (+5.5)	78.9 (+10.8)	71.2 (+24.2)	30.1 (+8.3)