Enhancing Vision-Language Model Reliability with Uncertainty-Guided Dropout Decoding¶

会议: NeurIPS 2025
arXiv: 2412.06474
代码: https://github.com/kigb/DropoutDecoding
领域: 多模态VLM / AI安全
关键词: VLM幻觉, 不确定性量化, 视觉token, Dropout解码, 认知不确定性

一句话总结¶

提出Dropout Decoding——量化视觉token的认知不确定性(epistemic uncertainty)，选择性遮掩高不确定性token，通过集成多个遮掩后的解码结果做多数投票，无需训练即在InstructBLIP上CHAIR_I降低16%、CHAIR_S降低12%。

背景与动机¶

LVLM的视觉幻觉源于对视觉token的误解——某些视觉token携带的信息被模型错误理解。已有方法要么需要训练（微调/RLHF），要么基于启发式（如OPERA修改beam search、VCD对比解码），缺乏对"哪些视觉token不可靠"的原理性度量。

核心问题¶

如何在推理时识别哪些视觉token不可靠，并通过选择性遮掩来提升LVLM输出的可靠性？

方法详解¶

整体框架¶

两阶段推理方法：(1) 解码前——量化每个视觉token的不确定性；(2) 解码时——基于不确定性做token dropout + 集成投票。

关键设计¶

视觉token的文本空间投影: 用logit lens将视觉token投影到文本词表空间：q_proj_i = softmax(W_V · h_v_i)。投影后可以看到每个视觉token"像什么文本"——信息丰富的patch投影出"Berlin"/"computer"，无信息的patch投影出"a"/"the"。
认知不确定性分解: 将总不确定性分解为偶然不确定性（数据固有）和认知不确定性（模型知识不足）。关键发现：认知不确定性与视觉token的信息量正相关——高认知不确定性对应信息丰富但可能被误解的patch（如城市名、特定物体）。
不确定性引导的Token Dropout:
标记高认知不确定性的视觉token
生成多组随机dropout掩码（每组遮掩不同的高不确定性token子集）
用每组掩码单独解码
多数投票聚合结果

类比原理¶

传统Dropout对模型参数做随机遮掩防止过拟合→Dropout Decoding对输入视觉token做选择性遮掩防止"过度依赖"不可靠视觉信息。

实验关键数据¶

模型	方法	CHAIR_S↓	CHAIR_I↓	THRONE F1↑
InstructBLIP	Greedy	27.87	7.90	0.809
InstructBLIP	OPERA	28.07	8.23	0.805
InstructBLIP	VCD	39.33	19.10	0.737
InstructBLIP	Dropout Decoding	24.53	6.63	0.814
LLaVA-1.5	Greedy	42.20	12.83	0.795
LLaVA-1.5	Dropout Decoding	39.80	11.73	0.804
LLaVA-NEXT	Greedy	28.80	8.10	0.815
LLaVA-NEXT	Dropout Decoding	26.26	7.39	0.821

VCD在InstructBLIP上反而大幅恶化，Dropout Decoding一致有效
在THRONE上precision和F1同时提升

消融实验要点¶

认知 vs 偶然不确定性: 认知不确定性引导效果远优于偶然不确定性
候选数量: 5-10组dropout掩码最优
dropout比例: 遮掩top-30%高不确定性token最优

亮点¶

原理清晰: 从贝叶斯不确定性分解到token dropout的推导链完整
无需训练: 推理时即插即用，兼容任何LVLM
认知不确定性的发现: 高认知不确定性token = 信息丰富但可能被误解的关键token
一致有效: 在3个不同LVLM、多个benchmark上都稳定提升

局限性¶

多次解码+投票增加推理延迟（~5-10x）
依赖logit lens的投影质量
对开放式生成（非分类/描述）的适用性未验证

启发与关联¶

与FlowCut互补：FlowCut用CLS注意力识别冗余token并剪枝（效率导向），Dropout Decoding用不确定性识别不可靠token并集成（可靠性导向）
认知不确定性可以指导VHR——不确定性高的token区域需要更强的视觉注意力增强
与REVERSE结合：Dropout Decoding在token级检测不确定性，REVERSE在phrase级检测幻觉

评分¶

新颖性: ⭐⭐⭐⭐ 将Dropout从参数空间迁移到输入token空间是巧妙的
实验充分度: ⭐⭐⭐⭐ 3个模型、CHAIR+THRONE双benchmark、详细消融
写作质量: ⭐⭐⭐⭐⭐ Figure 1的投影可视化和不确定性分解极其直观
价值: ⭐⭐⭐⭐ 推理时VLM可靠性增强的实用方法