KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing¶

会议: CVPR 2026
arXiv: 2602.04268
代码: 无
领域: 多模态VLM / 幻觉缓解 / 推理优化
关键词: 多模态幻觉, KV缓存平滑, 注意力熵, EMA, 免训练

一句话总结¶

KVSmooth 提出了一种免训练的即插即用方法，通过对 KV-Cache 中的 Key 和 Value 施加注意力行熵引导的自适应指数移动平均（EMA）平滑，将 LLaVA-1.5 的 CHAIR_S 从 41.8 降至 18.2（降低 56%），同时 F1 从 77.5 提升到 79.2。

MLLM（如 LLaVA、MiniGPT-4）在生成过程中经常产生与输入图像不一致的幻觉内容。根本原因在于"语义漂移"：随着解码序列增长，早期视觉 token 的影响力在隐状态中逐渐衰减，导致模型越来越依赖语言先验而非视觉证据。现有方法要么需要昂贵的重训练/微调，要么采用对比解码但会牺牲召回率。

如何在不需要重训练的前提下，抑制解码过程中的语义漂移，同时保持对真实对象的覆盖？

KVSmooth 是一个在推理时应用于 KV-Cache 的 EMA 平滑方法，配合注意力行熵自适应调节平滑强度。完全免训练、即插即用。

三个关键观察:
Obs1（logit 动态分歧）: 真实对象的 logit 均值和方差在解码中单调下降，幻觉对象的则稳步上升
Obs2（行熵 ≈ sink 强度）: 提出注意力行熵作为 token "sink 程度"的实时度量。行熵高 = 注意力分布均匀 = 隐状态接近历史平均 = 形成 attention sink
Obs3（行熵↑ → 幻觉↑）: 行熵与幻觉对象 logit 排名正相关——sink token 通过全局平均操作系统性地膨胀幻觉对象的分数
EMA Smoothing on KV-Cache: 将隐状态演化建模为随机游走 \(h_t = h_{t-1} + \epsilon_t\)，MAP 估计等价于 EMA：\(\hat{h}_t = (1-\lambda_t)o_t + \lambda_t h_{t-1}\)。实验验证同时对 Key 和 Value 做 EMA 效果最好（优于仅对 Key 或对 hidden state 做 EMA），因为同时平滑 K 和 V 能最大限度抑制 logit 的均值和方差增长。
Entropy-Guided Coefficient Adaptation: 不同 token 对幻觉的贡献不同——行熵高的 sink token 需要更强平滑。方法：维护一个 FIFO 队列（长度 15）记录最近的行熵值，当前 token 的平滑系数 = 其行熵在队列中的百分位排名。行熵越高 → 平滑越强。最终系数裁剪到 \([\lambda_{ref}-0.2, \lambda_{ref}+0.2]\) 范围内稳定生成。

完全免训练。应用于 3-31 层，FIFO 队列长度 15。\(\lambda_{ref}\) 分别为 LLaVA-1.5: 0.9, MiniGPT-4: 0.5, InstructBLIP: 0.7。

模型	方法	CHAIR_S↓	F1↑
LLaVA-1.5	Baseline	41.8	77.5
LLaVA-1.5	VCD	56.0	71.1
LLaVA-1.5	OPERA	44.2	78.6
LLaVA-1.5	MiddleLayer	17.8	75.9
LLaVA-1.5	KVSmooth	18.2	79.2

在 Object HalBench 上 CHAIRSR 下降 63.1%。推理速度（3.61s/caption）接近 baseline（3.36s），远快于 OPERA（34.62s）。

平滑位置: 同时平滑 K+V 最优；仅平滑 K 幻觉抑制弱；直接平滑 hidden state 导致召回率骤降
自适应 vs 固定系数: 自适应 EMA 在 CHAIR_S 和 F1 上均优于最佳固定系数
层范围: 0-2 层和第 32 层（最后层）应排除在外，3-31 层效果最好
\(\lambda_{ref}\) 灵敏度: \(\lambda_{ref}\) 越大平滑越强、CHAIR_S 越低，但 F1 几乎不变——显示方法鲁棒

vs VCD（对比解码）: VCD 大幅降低召回率（F1 71.1），KVSmooth 精度和召回同时提升（F1 79.2）
vs OPERA（注意力惩罚）: OPERA 需要回溯重新分配注意力，推理慢 10×。KVSmooth 几乎无额外开销
vs PAI/MiddleLayer（注意力重分配）: 这些方法提升精度但损害召回率。KVSmooth 通过自适应机制精确识别需要平滑的 token，避免过度抑制
vs PruneHal（KV 剪枝）: PruneHal 删除冗余 token，KVSmooth 保留所有 token 但调节其影响力