Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification¶

会议: ICLR2026
arXiv: 2602.05535
代码: 待确认
领域: 多模态VLM
关键词: LVLM uncertainty, evidential reasoning, Dempster-Shafer, misbehavior detection, hallucination

一句话总结¶

提出 EUQ（Evidential Uncertainty Quantification），基于 Dempster-Shafer 证据理论将 LVLM 的认识不确定性分解为冲突（CF，内部矛盾）和无知（IG，信息缺失），单次前向传播即可检测幻觉、越狱、对抗攻击和 OOD 失败四类错误行为，AUROC 相对提升最高 10.5%。

研究背景与动机¶

领域现状：LVLM 在困难/分布外输入下会产生幻觉、越狱响应、对抗脆弱性和 OOD 失败等错误行为。现有不确定性量化方法多关注总体预测不确定性。
现有痛点：(a) 贝叶斯方法计算成本太高无法应用于 LVLM；(b) 采样方法（语义熵等）需多次推理；(c) 现有方法无法区分不确定性的来源——是内部矛盾还是知识缺失。
核心洞察：幻觉主要源于高内部冲突（模型同时有支持和反对的证据），OOD 失败源于高无知（缺乏相关知识）。
核心idea：从 LVLM output head 的 pre-logits 特征中提取正/负证据，用 Dempster 规则融合后分别计算冲突和无知。

方法详解¶

整体框架¶

LVLM 单次前向推理 → 提取 output head 的 pre-logits 特征 \(\mathbf{Z}\) → 最小承诺原则计算证据权重 \(\mathbf{E}\) → 分解为正（支持）/负（反对）证据 → Dempster 融合 → 输出冲突 CF 和无知 IG。

关键设计¶

证据权重闭式估计（Lemma 1）:
用仿射变换 \(\mathbf{E} = \mathbf{A} \odot \mathbf{Z}^\top + \mathbf{B}\) 从 pre-logits 构造证据
最小承诺原则约束下闭式解 \(\mathbf{A}^* = W - \mu_0(W)\)
分解为 \(\mathbf{E}^+\)（支持）和 \(\mathbf{E}^-\)（反对）
Dempster 融合计算 CF 和 IG:
CF = 正负证据间的冲突度 \(\kappa\)（高 CF = 模型内部矛盾）
IG = 融合后分配给全集 \(\mathcal{H}\) 的质量（高 IG = 模型缺乏知识）
完全无需训练，单次前向传播
Misbehavior-Bench:
涵盖 4 类错误行为：幻觉、越狱、对抗攻击、OOD 失败
评估 4 个 SOTA LVLM：DeepSeek-VL2-Tiny、Qwen2.5-VL-7B、InternVL2.5-8B、MoF-7B

实验关键数据¶

主实验（AUROC）¶

方法	幻觉	越狱	对抗	OOD	说明
Token Entropy	基线	基线	基线	基线	总体不确定性
Semantic Entropy	中等	中等	中等	中等	需多采样
EUQ-CF	+10.4%	高	高	中等	检测幻觉最佳
EUQ-IG	中等	高	高	+7.5%	检测 OOD 最佳

关键发现¶

幻觉 ↔ 高冲突：模型有矛盾的内部证据→产生幻觉
OOD ↔ 高无知：缺乏相关知识→无法处理分布外输入
层级动态分析：CF 和 IG 在不同层表现不同，中间层某些层可区分全部 4 类错误

亮点与洞察¶

首次在 LVLM 中分解认识不确定性为冲突和无知——提供可解释的错误行为诊断
训练无关+单次前向传播——极低计算成本，可直接部署
证据论 × LLM 的新颖结合——Dempster-Shafer 理论在大模型中找到自然应用

局限性 / 可改进方向¶

仅使用 output head 特征，未利用中间层的丰富信息
证据权重的闭式解依赖线性投影假设
目前是检测而非修复——检测到不确定性后如何改善输出是下一步

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将证据理论的 CF/IG 分解应用于 LVLM 错误检测
实验充分度: ⭐⭐⭐⭐⭐ 4 模型 × 4 类错误 × 多基线，层级分析有深度
写作质量: ⭐⭐⭐⭐ 理论推导严谨，可视化有帮助
价值: ⭐⭐⭐⭐⭐ 对 LVLM 可信度和安全部署有直接实用价值