Benchmarking Deflection and Hallucination in Large Vision-Language Models¶

会议: ACL 2026
arXiv: 2604.12033
代码: 有（发表后公开）
领域: 多模态VLM
关键词: 视觉语言模型, 幻觉检测, 拒答评估, 知识问答, 检索增强生成

一句话总结¶

提出 VLM-DeflectionBench，一个包含 2775 个样本的多模态基准，通过四种评估场景（参数化/Oracle/现实/对抗）系统性地评估大型视觉语言模型在证据不足或误导时的拒答（deflection）vs 幻觉（hallucination）行为，实验覆盖 20 个 SOTA LVLM，发现几乎所有模型都无法在噪声证据下可靠拒答。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）越来越多地依赖检索增强来回答知识密集型多模态问题。现有的 KB-VQA 基准（如 OK-VQA、InfoSeek、E-VQA）主要评估检索到正确证据时的准确率。

现有痛点：(1) 忽略了证据冲突：现有基准不考虑视觉和文本证据之间的矛盾，也不考虑检索到的知识不完整时模型应该怎么做；(2) 快速过时：随着 LVLM 训练集不断扩大，许多原本需要检索的问题现在可以通过参数化知识直接回答，基准失去了区分力；(3) 不区分失败模式：只衡量"对不对"，不区分"错误回答"（幻觉）和"拒绝回答"（拒答）——而在证据不足时，拒答是更可取的失败模式。

核心矛盾：可靠的 RAG 系统应该在证据不足时拒答而非胡编，但目前没有基准系统地评估这种行为。

本文目标：构建一个动态可更新的基准，专门评估 LVLM 在不同知识条件下的幻觉 vs 拒答行为。

切入角度：设计四个互补场景来解耦参数化记忆和检索鲁棒性——从无证据到完美证据到混合证据到纯干扰项。

核心 idea：用动态过滤 pipeline 保持基准难度（过滤掉可参数化回答的样本），用四场景评估协议将"模型知道什么"和"模型不知道时怎么做"分开评估。

方法详解¶

整体框架¶

三阶段构建 pipeline：Stage I 用多个 gating 模型过滤掉可参数化回答的样本 → Stage II 为保留样本挖掘文本和视觉干扰项 → Stage III 质量控制（确保可解性+干扰项有效性）。最终基准包含 2775 个样本，每个配有金标准证据和干扰项。

关键设计¶

动态参数化过滤（Stage I）:
- 功能：确保基准中的问题确实需要外部检索才能回答
- 核心思路：用 4 个强力 gating 模型（Gemma3-27B、Qwen-2.5-VL-32B、InternVL3-38B、VL-Rethinker-72B）在无外部知识的条件下回答每个问题。仅保留所有模型都无法正确回答的样本。用 GPT-4o 作为评判器
- 设计动机：随着模型能力增强，原本需要检索的问题可能变成可参数化回答。动态过滤使基准可以随时间更新（换入更强的 gating 模型），保持评估有效性
四场景评估协议:
- 功能：解耦参数化知识和检索鲁棒性，显式评估拒答行为
- 核心思路：参数化场景（无外部知识）：验证过滤有效性，期望准确率接近零。Oracle 场景（仅金标准证据）：测试给定完美证据时的最大能力。现实场景（金标准+干扰项混合）：模拟真实检索结果。对抗场景（仅干扰项）：期望模型拒答而非幻觉。每个场景报告三个指标：准确率、拒答率、幻觉率
- 设计动机：单一场景无法揭示模型的全貌。四场景覆盖了从最理想到最恶劣的知识条件光谱
多模态干扰项挖掘（Stage II）:
- 功能：为每个样本提供高质量的文本和视觉干扰项
- 核心思路：文本干扰项通过 EVA-CLIP 从 Wikipedia 索引检索 top-10 相关页面，分块后用 Contriever 重排；视觉干扰项从图像索引检索 top-10 相似非金标准图像。确保每个样本至少有 5 个干扰项
- 设计动机：真实检索场景中噪声不可避免，高质量干扰项能测试模型区分相关和无关证据的能力

实验关键数据¶

主实验（20 个 LVLM 四场景评估，选取代表性模型）¶

模型	Oracle Acc↑	Oracle Hall↓	Realistic Acc	Realistic Hall↓	Adversarial Defl↑	Adversarial Hall↓
Ovis2-34B	66.5	27.8	49.1	43.3	38.7	58.1
GPT-5	73.1	12.6	59.5	25.5	61.2	34.7
Claude-Opus-4	49.1	9.2	32.1	8.5	88.3	11.1
Gemini-2.5-Pro	59.8	13.9	51.0	20.5	76.1	22.2
Qwen-2.5-VL-32B	61.0	33.9	45.2	49.5	13.7	83.9
Mistral-Small-3.1	42.6	10.3	23.5	14.9	83.8	15.6

关键发现¶

没有任何模型在所有场景中表现均衡：Claude 过度拒答（Oracle 准确率仅 49.1%），Qwen 过度自信（对抗场景幻觉 83.9%），Mistral 也过度拒答
即使给了金标准证据，幻觉仍然严重：LLaVA-OneVision 在 Oracle 场景下仍有 41.6% 幻觉率，说明 grounding 而非检索是主要瓶颈
现实场景中准确率普遍下降 10-20 个百分点：干扰项导致模型频繁被误导
GPT-5 在参数化场景中准确率偏高（23.7%）：可能反映训练集污染
开源模型在对抗场景中几乎不拒答：大多数拒答率低于 35%，倾向于编造答案
拒答和准确率之间存在根本性 trade-off：高拒答模型（如 Claude）牺牲 Oracle 准确率

亮点与洞察¶

"动态过滤"理念非常重要——基准应该随模型演进而更新，否则会快速过时。VLM-DeflectionBench 的 pipeline 可以通过更换 gating 模型来保持时效性
四场景评估协议揭示了单一准确率指标无法看到的行为模式。例如 Claude 在传统基准上可能因为高拒答率得分低，但在安全性要求高的场景中反而是最合适的选择
"幻觉 vs 拒答"的区分对 RAG 系统部署至关重要——在医疗、法律等高风险领域，生成不支持的答案远比拒答危险

局限与展望¶

基准仅使用 GPT-4o 作为评判器，可能引入评判偏差
2775 个样本规模相对有限，某些模态组合的样本较少
"严格 RAG"假设（所有错误回答都算幻觉）过于简化——现实场景中错误可能来自误读证据而非凭空编造
未探索如何训练模型提升拒答能力（只做了评估）
未考虑多轮交互中的拒答行为
干扰项的难度未分级，不同难度的干扰项可能导致不同行为

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统评估多模态 RAG 中拒答行为的基准，四场景设计独特
实验充分度: ⭐⭐⭐⭐⭐ 20 个模型（含开源和闭源），人工验证 κ=0.91
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，实验设计严谨，发现有洞察力
价值: ⭐⭐⭐⭐⭐ 对 RAG 系统的可靠性评估提出了新范式，对部署决策有直接指导