When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations¶

会议: NeurIPS 2025
arXiv: 2506.05551
代码: GitHub
领域: multimodal_vlm
关键词: 语义幻觉, 场景文字识别, 大多模态模型, 注意力校正, 训练无关

一句话总结¶

发现大多模态模型（LMMs）在场景文字识别中存在"语义幻觉"问题（将无语义文本误识为语义合理的词），分析发现注意力集中于文本区域的Transformer层更不易幻觉，据此提出训练无关的ZoomText+Grounded Layer Correction框架，在TextHalu-Bench上提升约4-5%，在ST-VQA上提升约4%。

研究背景与动机¶

LMMs在视觉感知和推理上表现出色，但在处理视觉模糊或非语义场景文字时容易产生"语义幻觉"——生成语义合理但视觉上不正确的答案。例如将"MMOTEL"（无语义的编辑字符）识别为"MOTEL"，将"PULLa"识别为"PULL"。核心矛盾：模型在大规模语义连贯文本上预训练，产生了强烈的语义先验，导致在OCR任务中依赖语义猜测而非真正的视觉定位。现有幻觉缓解工作主要关注物体幻觉和事实幻觉，OCR特有的语义幻觉几乎未被研究。本文的核心idea是利用LLM内部不同层的注意力差异——关注文本区域更多的层更不容易幻觉——来指导解码过程。

方法详解¶

整体框架¶

提出训练无关的语义幻觉缓解框架，包含两个模块：

输入：图像 + 文本问题
输出：校正后的场景文字识别/理解结果
Pipeline：①ZoomText定位场景文本区域（无需外部检测器）→ ②Grounded Layer Correction选择最优层的隐状态融合到解码过程

关键设计¶

语义幻觉的原因分析:
- 幻觉倾向评分：对每个Transformer层 \(\ell\)，比较幻觉token \(y_{hal}\) 和真实token \(y_{gt}\) 的输出概率：\(S_{hal}^{\ell} = P_{hal}^{\ell} / (P_{hal}^{\ell} + P_{gt}^{\ell})\)
- 文本区域注意力分数：定义 \(A_{\ell} = \frac{\sum_{i \in \mathcal{I}} \sum_{j \in \mathcal{T}} \alpha_{i,j}^{\ell}}{\sum_{i \in \mathcal{I}} \sum_{j \in \mathcal{I}} \alpha_{i,j}^{\ell}}\)，衡量第 \(\ell\) 层对文本区域的注意力比例
- 关键发现：Spearman相关分析显示，幻觉倾向与文本区域注意力呈强负相关——注意力越集中于文本区域的层越不容易幻觉
ZoomText（粗到细文本区域定位）:
- Glimpse步骤：提取LLM最后一层的query-to-image交叉注意力，跨所有头和query token平均得到全局图像注意力图 \(A_{text} = \frac{1}{HQ}\sum_{h=1}^{H}\sum_{q=1}^{Q} A_{q2v}^{(h,q)}\)，选取top-K个token作为粗略文本区域候选
- Refocus步骤：计算首尾Transformer层自注意力的归一化偏移分数 \(A_{text}^{normalized} = (A_{v2v}^{(L)} - A_{v2v}^{(1)}) / (A_{v2v}^{(1)} + \epsilon)\)，过滤掉注意力模式跨层稳定的非语义token（全局上下文"寄存器"），保留真正的文本区域
Grounded Layer Correction (GLC):
- 选择文本区域注意力最强的层：\(\ell^{\star} = \arg\max_{\ell} A_{\ell}\)
- 提出三种校正策略：
  - Replacement：直接用 \(\ell^{\star}\) 层隐状态替换最终层
  - Selective Replacement：仅对文本区域token替换
  - Fusion（默认）：加权融合 \(\hat{H}_i = (1-w) \cdot H_i^{(L)} + w \cdot H_i^{(\ell^{\star})}\)，\(w=0.1\)
- Fusion策略在缓解幻觉和保持语义能力之间取得最佳平衡

损失函数 / 训练策略¶

完全训练无关，测试时自适应插件。ZoomText的 \(K=128\)（top-K image tokens），Fusion权重 \(w=0.1\)。无额外模块或可训练参数。可直接集成到Mini-Monkey、Qwen2.5-VL、LLaVA-NeXT等现有LMMs中。

实验关键数据¶

主实验¶

模型	TextHalu-Bench	ST-VQA	TextVQA	GOT	SEED-Bench
GPT-4o	45.3	-	71.0	-	70.2
Mini-Monkey (baseline)	46.5	66.7	74.1	88.8	83.3
Mini-Monkey + Ours	50.6 (+4.1)	70.6 (+3.9)	75.0 (+0.9)	89.2 (+0.4)	84.5 (+1.2)
Qwen2.5-VL (baseline)	48.3	67.3	79.1	85.2	66.7
Qwen2.5-VL + Ours	53.8 (+5.5)	67.6 (+0.3)	80.3 (+1.2)	86.0 (+0.8)	70.2 (+3.5)
LLaVA-NeXT (baseline)	27.9	65.1	65.3	41.9	50.0
LLaVA-NeXT + Ours	28.5 (+0.6)	65.2 (+0.1)	65.5 (+0.2)	42.0 (+0.1)	51.2 (+1.2)

消融实验¶

配置	TextHalu-Bench	ST-VQA	说明
Baseline (Mini-Monkey)	46.5	66.7	--
Adversarial Training	47.5 (+1.0)	66.8 (+0.1)	训练式方法效果有限
Chain-of-Thought	46.8 (+0.3)	68.2 (+1.5)	CoT对通用任务有帮助但不治本
Ours (Fusion)	50.6 (+4.1)	70.6 (+3.9)	最优方案
用外部文本检测器替代ZoomText	50.4 (+3.9)	70.8 (+4.1)	ZoomText接近外部检测器
w/o Glimpse	50.2 (+3.7)	70.2 (+3.5)	Glimpse有贡献
w/o Refocus	49.8 (+3.3)	69.5 (+2.8)	Refocus过滤噪声重要
Replacement策略	下降	下降	直接替换破坏语义
Selective Replacement	中等提升	通用任务下降	过度覆写影响对齐
Fusion (w=0.1)	最优	最优	温和融合最佳

关键发现¶

语义幻觉是LMMs的根本性缺陷：即便GPT-4o在TextHalu-Bench上也仅45.3分，远低于人类96.8分
不同Transformer层的幻觉倾向差异显著：中间层往往比最后几层更能正确预测真实token
注意力集中度与幻觉呈强负相关：注意力更多分配给文本区域的层，幻觉概率更低
方法对OCR能力强的模型增益更大：Mini-Monkey和Qwen2.5-VL提升明显，但OCR能力弱的LLaVA-NeXT提升有限
ZoomText无需外部检测器即可达到可比性能："glimpse-refocus"策略有效利用了模型自身注意力

亮点与洞察¶

首次系统定义并研究LMMs中的"语义幻觉"问题，概念清晰且与实际应用高度相关
从注意力机制出发分析幻觉成因的方法论值得借鉴——直接量化层级attention与幻觉概率的关系
ZoomText的"glimpse-refocus"是一种优雅的无需外部模块的文本区域定位方案
融合策略简单有效（仅一个权重\(w=0.1\)），计算开销极低

局限与展望¶

融合权重 \(w\) 和 top-K 值需要手动设定，不同模型可能需要调整
对OCR能力本身较弱的模型（如LLaVA-NeXT）效果有限，说明方法依赖底层视觉编码能力
ZoomText假设文本出现在语义有意义的背景上（如招牌、海报），对纯文本图像可能不适用
TextHalu-Bench仅1740样本，覆盖场景有限

评分¶

新颖性: ⭐⭐⭐⭐ 语义幻觉的定义和分析方法新颖，但解决方案（隐状态融合）相对常规
实验充分度: ⭐⭐⭐⭐ 多个基准、多种消融、对比多种幻觉缓解方法
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，可视化丰富，论证逻辑流畅
价值: ⭐⭐⭐⭐ 揭示了LMM在OCR任务中的重要缺陷，训练无关方案实用性强