Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation¶

日期: 2026-03-07
arXiv: 2603.07048
代码: 无
领域: 多模态/VLM
关键词: multi-image hallucination, cross-image attention, preference learning, DPO, large vision-language model

一句话总结¶

提出 CAPL 框架，通过选择性跨图像 token 双向注意力机制和基于注意力截断的偏好学习（DPO），系统性地解决多图像场景下 LVLM 因单向因果注意力导致的跨图像信息流不对称和幻觉问题。

研究背景与动机¶

现有大规模视觉语言模型（LVLM）在多图像任务中存在严重的幻觉问题，本文将原因归结为两个核心缺陷：

因果注意力的单向性偏差：标准 Transformer 自回归框架下，多图像输入按序列排列，后面的图像可以 attend 到前面的图像，但前面的图像无法感知后面的图像。这种不对称信息流破坏了跨图像关系建模所需的语义等价性，导致模型难以建立稳定的跨图像关联。
跨图像建模不足：现有方法（如 Idefics、Qwen-VL）虽然支持多图像输入，但仅采用 token 拼接或共享表示融合等简单策略，没有显式建模图像间的结构化关系。解码策略方法（如局部结构修改）只能调整解码分布，无法从根本上增强跨图像交互。
训练范式局限：已有的偏好学习方法主要处理"准单图像"场景（多图像输入但图像间语义无关），缺乏对真正跨图像语义关系的建模，且负样本构造方式难以有效暴露模型的幻觉行为模式。

在这种顺序偏置的交互模式下，跨图像信息流呈单向传播，模型可能退化为基于文本 token 的浅层关联匹配，而非基于视觉证据的真实关系推理，最终产生不可靠的推断。

方法详解¶

整体框架¶

CAPL（Cross-Image Attention calibration and Preference Learning）包含两个核心组件：

选择性跨图像 token 交互注意力机制：在架构层面增强图像间的双向信息交互
基于注意力截断的偏好优化策略（Attentive DPO）：在训练层面引导模型依赖真实的跨图像视觉证据

整体流程：首先对图像 token 进行重要性排序选出关键 token，将原始因果 mask 修改为增强型跨图像注意力（重新激活图像间交互）和截断型跨图像注意力（阻断图像间交互）。增强 mask 用于推理和正样本构造，截断 mask 用于生成负样本，配合 DPO 训练。

关键设计¶

1. 选择性跨图像 Token 交互¶

跨图像注意力 mask：定义函数 \(g(i)\) 表示 token \(i\) 所属图像的索引，跨图像 mask 为：

\[\mathbf{M}^{\text{cross}}_{ij} = \begin{cases} 0, & g(i) \neq g(j) \\ \mathbf{M}^{\text{causal}}_{ij}, & g(i) = g(j) \end{cases}\]

即不同图像间的 token 允许双向注意力，同一图像内保留原始因果注意力。

关键 token 选择：为避免全量交互引入冗余，基于 embedding 能量 \(s_{k,i} = \|\mathbf{h}_{k,i}\|_2\) 选取响应强度最高的 \(\lfloor \rho \tau_k \rfloor\) 个 token 构成关键 token 集合 \(\mathcal{S}_k\)，仅允许关键 token 间进行跨图像交互。

注意力融合：最终注意力为因果注意力和选择性跨图像注意力的等权融合：

\[\mathbf{A}^{\text{fuse}} = \frac{1}{2}(\mathbf{A}^{\text{causal}} + \mathbf{A}^{\text{cross\_sel}})\]

交替层策略：奇数层使用选择性跨图像 mask，偶数层保留原始因果 mask，在增强跨图像关系建模的同时保持非跨图像任务的稳定性。

2. 基于注意力截断的偏好学习¶

正样本构造：使用选择性跨图像注意力机制生成输出，再结合 Qwen3 进行修正以确保正确性。

负样本构造（核心创新）：通过截断所有跨图像注意力连接来诱导幻觉：

\[\mathbf{M}^{\text{trunc}}_{ij} = \begin{cases} \mathbf{M}^{\text{causal}}_{ij}, & g(i) = g(j) \\ -\infty, & g(i) \neq g(j) \end{cases}\]

这迫使模型在生成时只能依赖单张图像和语言先验，无法利用跨图像信息，从而产生更多幻觉性回答，暴露模型固有的错误推理模式。

训练目标：结合 DPO 损失和正样本的 NLL 损失：

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{ref}}) + \lambda \mathcal{L}_{\text{NLL}}(\pi_\theta)\]

DPO 确保偏好对齐，NLL 确保 token 级别对高质量推理轨迹的模仿。

实验关键数据¶

主实验¶

在三个基座模型上评估，覆盖多图像幻觉、多图像通用、单图像三类 benchmark。

模型	参数量	BLINK ↑	MUIRBench ↑	NLVR2 ↑	QBench2 ↑	MIBench ↑	MIRB ↑
Idefics2	8B	45.24	29.85	56.81	38.6	49.28	37.56
LLaVA-OV	7B	44.77	30.85	86.82	70.1	62.37	47.30
InternVL2	7B	50.34	45.61	77.68	69.8	59.37	53.15
Qwen2VL	7B	53.17	39.57	87.41	76.8	69.20	31.68
Qwen2.5-VL	7B	54.60	58.42	79.85	71.1	72.42	52.73
+CAPL	7B	57.76	62.00	80.05	72.4	71.06	56.55
InternVL2.5	8B	54.81	48.54	90.42	75.5	63.42	54.18
+CAPL	8B	55.76	52.12	90.13	75.3	65.11	56.55
GLM4.1VBase	9B	58.17	57.84	84.98	74.4	70.86	59.96
+CAPL	9B	61.33	60.57	84.87	73.6	71.70	60.06

单图像 benchmark 上性能稳定或略有提升（如 Qwen2.5-VL 的 POPE 从 81.23→82.94，GLM4.1VBase 的 CHAIRs 从 22.0→18.4）。

消融实验¶

配置	Qwen2.5-VL BLINK	Qwen2.5-VL MUIRBench	InternVL2.5 BLINK	InternVL2.5 MUIRBench	GLM4.1V BLINK	GLM4.1V MUIRBench
Base	54.60	58.42	54.81	48.54	58.17	57.84
+Attn	55.34	58.96	55.02	49.07	58.23	58.07
+CAPL (Full)	57.76	62.00	55.76	52.12	61.33	60.57

截断注意力负样本 vs 原始负样本（GLM4.1VBase 在 MUIRBench 子任务上）：

方法	Overall	Geographic	Scene	Difference	Counting	Diagram
Base	57.9	41.0	66.1	57.9	39.3	73.9
+Attn + Original DPO	59.5	44.0	69.4	58.5	40.6	75.6
+Attn + Truncated DPO	60.6	48.0	70.4	60.3	42.7	76.9

关键发现¶

注意力机制与偏好学习的协同效应：单独加入跨图像注意力带来稳定但有限的提升，结合偏好训练后提升显著放大，说明结构化建模与目标优化之间存在协同关系。
截断注意力负样本更具挑战性：截断注意力生成的负样本准确率比原始模型生成的低约 20%（GLM4.1VBase），意味着这些负样本更有效地暴露了模型的幻觉行为，为 DPO 提供更强的优化信号。
跨图像任务增益最显著：在 Geographic Understanding（+7.0）、Scene Understanding（+4.3）等强依赖跨图像关联的子任务上提升最大。
单图像性能无损甚至提升：表明 CAPL 抑制的幻觉倾向具有通用性，跨图像视觉信息的偏好学习也能丰富模型的视觉知识。
选择比例 \(\rho\) 的最优值接近但不等于 1：说明少量图像 token 包含噪声，保留大部分（0.9–0.95）关键 token 效果最佳。

亮点与洞察¶

从注意力机制角度分析多图像幻觉根因：首次系统地将多图像幻觉归因于因果注意力的单向性导致的跨图像信息流不对称，这一视角新颖且有说服力。
"截断注意力→诱导幻觉→构造负样本"的设计巧妙：利用因果注意力的局限性反向构造高质量负样本，无需外部标注器或人工构造，思路优雅。截断注意力迫使模型回退到语言先验驱动的推理，自然暴露幻觉行为。
训练-推理一致性：注意力修改在训练和推理阶段同时应用，避免了仅推理时修改带来的分布不匹配问题。
交替层策略设计合理：奇偶层交替使用不同 mask，在增强跨图像建模的同时保持了单图像和文本任务的稳定性。
极低训练成本：仅 3.6K 训练样本 + LoRA rank=16，在 NVIDIA L20 GPU 上即可训练，具有很强的实用性。

局限性 / 可改进方向¶

跨图像注意力为静态策略：关键 token 选择基于 L2 范数的全局排序，未考虑任务/问题相关性；更好的方式是根据 query 动态选择应交互的 token。
仅验证了 7-9B 量级模型：未在更大（如 72B）或更小（如 2B）模型上验证，泛化性有待进一步验证。
正样本依赖外部模型（Qwen3）修正：引入了对高能力模型的依赖，在完全自主的场景下可能受限。
交替层策略缺乏自适应机制：固定的奇偶层交替可能不是最优的，不同任务可能需要不同的层级分配策略。
训练数据规模较小：3.6K 样本能否充分覆盖多样化的跨图像关系类型值得讨论，扩大数据规模可能带来进一步提升。
未在视频理解等时序多帧场景下验证：视频理解本质上也是有序多图像任务，CAPL 的跨帧注意力策略是否适用有待探索。

评分¶

维度	分数 (1-5)	说明
创新性	4	跨图像注意力校准+截断注意力构造负样本的思路新颖
技术深度	4	从注意力结构到训练策略的完整方案，数学形式化清晰
实验充分度	4.5	三个模型、多类 benchmark、详尽消融实验
写作质量	4	动机分析清晰，方法叙述条理分明
实用性	4	3.6K 数据 + LoRA，极低训练成本，可即插即用
综合	4	高质量工作，对多图像幻觉问题提出了兼具原理性和实用性的解决方案