Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucination in Multimodal LLMs¶
- 会议: ACL 2025
- arXiv: 2505.17061
- 代码: xlchen0205/MoD
- 领域: multimodal_vlm
- 关键词: 多模态大模型, 幻觉缓解, 对比解码, 注意力机制, 自适应解码
一句话总结¶
提出了 Mixture of Decoding (MoD),通过 JS 散度衡量模型对图像 token 注意力的正确性,在注意力正确时采用互补解码放大关键信息,注意力错误时采用对比解码抑制误导信息,从而自适应地缓解多模态大模型的幻觉问题。
研究背景与动机¶
大型视觉语言模型 (LVLMs) 在各种视觉任务中表现出色,但"幻觉"问题——模型生成的文本与视觉信息不一致——严重制约了其可靠性。现有的对比解码方法存在明显不足:
VCD 和 M3ID 主要将幻觉归因于语言先验偏差,VCD 通过给图像加高斯噪声、M3ID 通过移除图像输入来获得幻觉 logits 进行对比,但它们忽视了视觉输入本身(如虚假关联)对幻觉的影响。
AvisC 虽然考虑了注意力分布,认为注意力权重过高的图像 token 会触发幻觉,但它一律削弱高注意力 token,没有区分注意力是否正确。当模型已经正确聚焦到相关信息时,AvisC 反而会削弱有用信号,导致不可靠的对比结果。
核心洞察在于:模型的注意力分布可能是正确的,也可能是错误的。关键在于判断注意力的正确性,然后动态调整解码策略——这正是 MoD 的出发点。作者发现,用 JS 散度衡量原始输出与基于注意力 token 生成的输出之间的一致性,能够有效区分幻觉输出和非幻觉输出(在 POPE 上体现为非幻觉样本集中在低 JS 散度区域,在 CHAIR 上 JS 散度与 CHAIR_i 的 Pearson 相关系数高达 0.85)。
方法详解¶
整体框架¶
MoD 包含三个核心步骤:
- 提取注意力图像 token:利用最后一个输入 token 在所有层和注意力头上的平均注意力权重,选取 top-λ 比例的高注意力图像 token,将其余 token 置零,得到 \(v_{att}\)。
- 生成双路 logits:分别基于原始图像 token \(v\) 和注意力图像 token \(v_{att}\) 进行前向传播,得到两组输出概率分布。
- JS 散度判别 + 自适应解码:计算两组分布的 JS 散度,低于阈值 \(\gamma\) 时采用互补策略,高于阈值时采用对比策略。
关键设计一:注意力图像 token 提取¶
模型利用自回归特性,取输入序列最后一个 token 对所有图像 token 的注意力权重,在所有层和头上取平均:
然后选取注意力权重最高的 top-λ 比例图像 token 的索引 \(IDX^I_{att}\),将其余图像 token 置零,得到 \(v_{att}\)。默认 \(\lambda = 0.2\),即保留 20% 的图像 token。
这种设计的优势在于:不依赖特定层或特定头的注意力,而是综合所有层和头的信息,获得模型对图像 token 的全局理解。
关键设计二:基于 JS 散度的自适应解码策略¶
计算两组输出分布的 JS 散度来判断注意力正确性:
根据 \(d(v, v_{att})\) 与阈值 \(\gamma\) 的关系,选择不同的解码策略:
- 注意力正确(\(d \leq \gamma\),一致性高):互补解码,将两组 logits 相加放大关键信息:
- 注意力错误(\(d > \gamma\),一致性低):对比解码,用原始 logits 减去注意力 logits 以抑制误导信息:
默认超参数为 \(\alpha_1=4\)、\(\alpha_2=1\)、\(\gamma=0.05\),在所有任务和模型上共用一套参数,无需针对特定场景调参。
关键设计三:一致性作为幻觉指示器¶
JS 散度能有效区分幻觉的直觉在于:当模型正确关注了相关图像区域时,仅保留这些高注意力 token 所生成的输出应与原始输出高度一致(低 JS 散度);当模型错误关注了无关区域时,仅保留这些 token 会导致与原始输出的显著偏离(高 JS 散度)。实验验证了这一点——在 POPE 上非幻觉输出集中在低 JS 散度区域,在 CHAIR 上 JS 散度与幻觉率呈强正相关(Pearson r=0.85, p<0.01)。
实验关键数据¶
表1:POPE 基准测试(MS-COCO,Random 设置)¶
| 方法 | LLaVA-1.5 Acc | LLaVA-1.5 F1 | Qwen-VL Acc | Qwen-VL F1 | LLaVA-NEXT Acc | LLaVA-NEXT F1 |
|---|---|---|---|---|---|---|
| Sampling | 83.8 | 84.2 | 84.9 | 82.9 | 84.4 | 82.3 |
| VCD | 85.0 | 84.2 | 85.5 | 83.6 | 86.0 | 84.3 |
| M3ID | 86.1 | 85.0 | 85.3 | 83.4 | 85.5 | 83.6 |
| AvisC | 82.3 | 83.5 | 82.9 | 80.0 | 85.2 | 82.8 |
| MoD | 89.2 | 89.1 | 86.0 | 84.1 | 86.6 | 84.8 |
MoD 在所有三种 POPE 设置(random/popular/adversarial)都取得最佳表现,在 LLaVA-1.5 上 Accuracy 超第二名 3.1 点、F1 超 4.1 点。
表2:CHAIR 基准测试(生成式描述任务)¶
| 方法 | LLaVA-1.5 CHAIR_s↓ | CHAIR_i↓ | Recall↑ | LLaVA-NEXT CHAIR_s↓ | CHAIR_i↓ | Recall↑ |
|---|---|---|---|---|---|---|
| Sampling | 52.8 | 15.9 | 77.3 | 35.8 | 12.0 | 59.5 |
| VCD | 51.0 | 14.9 | 77.2 | 40.2 | 10.7 | 62.1 |
| AvisC | 44.0 | 13.7 | 72.9 | 40.4 | 12.4 | 60.0 |
| MoD | 42.6 | 12.4 | 78.9 | 33.6 | 9.6 | 61.4 |
MoD 在降低幻觉率的同时保持甚至提升了 Recall,说明不仅减少了错误内容,描述的完整性也没有损失。注意 VCD 和 AvisC 在 LLaVA-NEXT 上反而加重了幻觉。
表3:MME 基准测试(MME Score)¶
| 模型 | Sampling | VCD | M3ID | AvisC | MoD |
|---|---|---|---|---|---|
| LLaVA-1.5 | 510.0 | 531.7 | 553.3 | 596.7 | 638.3 |
| Qwen-VL | 581.7 | 593.3 | 586.7 | 578.3 | 613.3 |
| LLaVA-NEXT | 595.0 | 611.7 | 608.3 | 613.3 | 653.3 |
MoD 在三个模型上分别超过第二名 41.6、20.0 和 40.0 分。
关键发现¶
- JS 散度是有效的幻觉指示器:原始输出与注意力 token 输出的一致性能准确区分幻觉与非幻觉,Pearson 相关系数达 0.85。
- 自适应优于单一策略:消融实验表明 MoD 比单独使用互补解码或对比解码分别高出 23.3 和 20.0 分(MME),说明动态切换策略的必要性。
- 超参数鲁棒性强:\(\gamma\) 在 0.02-0.08 范围内 MoD 均稳定优于单一方法,且所有任务和模型共用同一组超参数,无需逐场景调参。
- 模型无关性:在 LLaVA-1.5、Qwen-VL、LLaVA-NEXT 三种不同架构上均取得一致提升,且在某些方法(如 VCD、AvisC)反而加重幻觉的情形下,MoD 仍然稳定有效。
- AMBER 综合评分:MoD 在三个模型上的 AMBER Score 分别比第二名高 2.2、0.7 和 2.6 分,在判别和生成任务上均表现最优。
亮点与洞察¶
- 问题拆解精准:将"注意力是否正确"作为解码策略的切换条件,抓住了现有方法忽略的核心维度——注意力分布的正确性具有不确定性,不应一刀切地对待。
- 设计简洁优雅:不需要额外训练、不需要外部知识、不需要反复采样,仅用一个 JS 散度阈值即可实现自适应切换,实现了复杂度与效果的良好平衡。
- 互补解码的创新性:大多数对比解码工作只关注"减去什么",MoD 首次引入互补思路——当注意力正确时"加上什么"来放大关键信息,跳出了对比解码的固有范式。
- Precision 显著提升:在 POPE 上 Precision 最高超出其他方法 6.8 点,说明 MoD 有效抑制了 LVLM 倾向回答 "Yes" 的偏好,使模型更加审慎。
局限性¶
- 推理开销翻倍:与其他对比解码方法一样,MoD 需要两次前向传播,推理延迟近似翻倍。
- 掩码策略粗糙:当前直接置零低注意力 token,可能损失位置信息(在 MME 的 position 子集上有轻微下降),更精细的策略(如池化保留部分信息)可能进一步提升效果。
- 阈值全局固定:\(\gamma=0.05\) 对所有 token 位置一视同仁,但幻觉可能在特定生成阶段更易发生,动态阈值可能更优。
- 未处理训练数据偏差:MoD 作为推理时方法,不能解决训练数据中的固有偏见问题。
相关工作与启发¶
本文属于 LVLM 幻觉缓解中的推理时对比解码方向。与 VCD(图像加噪)、M3ID(移除图像)、AvisC(高注意力 token 对比)不同,MoD 的核心创新在于不预设注意力的好坏,而是用一致性度量来动态判断。同时期的 DeGF 也采用了类似的自适应思路(通过生成图像来判断一致性),但 MoD 的方案更轻量——直接利用模型内部的注意力信息而无需额外的图像生成步骤。
启发:这种"先判别再决策"的二阶段思路可以推广到其他场景,例如在 RAG 中判断检索文档与查询的相关性后再决定是否使用、在多轮对话中判断上下文注意力是否正确后调整生成策略等。
评分¶
⭐⭐⭐⭐ — 方法思路清晰、实验全面、设计简洁有效,通过一致性度量实现自适应解码是一个优雅的解决方案。不足在于推理翻倍的开销和较为粗糙的掩码策略。
相关论文¶
- [ACL 2025] ReefKnot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models
- [ACL 2025] MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
- [ACL 2025] Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific Tables
- [ICCV 2025] Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving
- [CVPR 2025] Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices