Cross-modal Information Flow in Multimodal Large Language Models¶

会议: CVPR 2025
arXiv: 2411.18620
代码: https://github.com/FightingFighting/cross-modal-information-flow-in-MLLM
领域: 多模态VLM
关键词: 多模态信息流、注意力机制可解释性、跨模态融合、LLaVA、VQA

一句话总结¶

通过"attention knockout"方法系统性地追踪 MLLM 中视觉和语言信息的流动路径，发现视觉信息分两阶段（先全局后局部）融入语言表征，最终在中间层由问题位置传播到最后位置生成答案。

研究背景与动机¶

领域现状：自回归多模态大语言模型（MLLMs）在 VQA 等视觉-语言任务上取得了显著进展，但其内部工作机制——特别是视觉和语言信息如何交互融合——仍然是个黑箱。

现有痛点：已有的可解释性工作主要关注单一方面，如参数中的知识存储、视觉 token 冗余、安全机制定位等，但缺乏对两个模态之间信息流动路径的全面理解。我们不知道模型在哪些层、以什么方式将图像信息和文本信息整合起来。

核心矛盾：MLLM 中注意力模块是唯一允许不同位置隐表征之间通信的组件，但我们不清楚这种通信在不同层的功能分工——是所有层都在做融合，还是存在明确的阶段划分？

本文目标 三个具体问题：(1) 视觉信息如何从图像 token 传播到问题 token？(2) 这种传播是粗粒度全局的还是细粒度局部的？(3) 融合后的多模态信息如何最终到达最后位置生成答案？

切入角度：借鉴 NLP 领域 mechanistic interpretability 中的 attention knockout 方法——通过选择性地阻断特定层中特定 token 对之间的注意力边，观察答案预测概率的变化来反向推断信息流路径。

核心 idea：用 attention knockout 逐层阻断跨模态注意力边，揭示 MLLM 中视觉-语言信息融合的两阶段机制和三步预测流程。

方法详解¶

整体框架¶

以自回归 MLLM（如 LLaVA 系列）为研究对象，输入为 [图像 patch 特征, 问题 token] 的拼接序列。在每一层的 masked multi-head attention 中，通过修改注意力掩码矩阵，将特定 source 集合（如图像 token）到 target 集合（如问题 token）的注意力边设为 \(-\infty\)，从而阻断两组 token 之间的信息流动。然后对比阻断前后答案预测概率的相对变化 \(p_c\% = ((p_2 - p_1)/p_1) \times 100\)，来量化该信息流的重要性。

关键设计¶

Attention Knockout 方法:
- 功能：选择性阻断特定 token 组之间的注意力连接
- 核心思路：在注意力掩码矩阵 \(M\) 中，对 source 集合 \(\mathbb{S}\) 到 target 集合 \(\mathbb{T}\) 的所有位置对 \((s,t)\) 设置 \(M_{s,t} = -\infty\)，使 softmax 后注意力权重为零。以滑动窗口 \(k=9\) 层为单位进行阻断，避免单层效果太弱
- 设计动机：注意力是 Transformer 中唯一的跨位置通信模块，阻断它等于切断信息流。比梯度方法更直接，能精确定位信息传递发生的层
三组对照实验设计:
- 功能：分解不同模态对最终预测的贡献路径
- 核心思路：设计三组 knockout 实验——(a) Image→Last vs Question→Last：测试哪个模态直接影响最终预测；(b) Image→Question：测试视觉信息是否间接通过问题 token 传播；(c) RelatedPatches→Question vs OtherPatches→Question：区分全局和局部视觉信息的贡献
- 设计动机：自回归模型中图像在前、问题在后，图像无法 attend 问题，因此只有两种路径——图像直接到最后位置，或先到问题再到最后位置
细粒度图像区域拆分:
- 功能：区分问题相关的图像区域和背景区域的信息贡献
- 核心思路：利用 GQA 数据集的 bounding box 标注，将图像 patch 分为包含被提问对象的 \(V_{obj}\) 和其余 \(V_{oth}\)，分别做 knockout 观察两类区域在不同层的信息流差异
- 设计动机：验证模型是否真的"理解"了问题指向的对象，还是只依赖全局统计特征

损失函数 / 训练策略¶

本文为分析论文，不涉及训练。实验在 LLaVA-1.5-7b/13b、LLaVA-v1.6-Vicuna-7b、Llama3-LLaVA-NEXT-8b 四个预训练模型上进行，使用 GQA 数据集的 6 类 VQA 任务。

实验关键数据¶

主实验¶

实验设置 (LLaVA-1.5-13b)	最大概率下降	关键层范围	说明
Question ↛ Last	~30%	中间层 (15-25层)	问题信息直接驱动最终预测
Image ↛ Last	~5%	-	图像信息不直接影响最终预测
Last ↛ Last	~0%	-	最后位置自身输入不含关键信息
Image ↛ Question (第一阶段)	~60%	底层 (0-4层)	全局视觉信息融入问题表征
Image ↛ Question (第二阶段)	~21%	中间层 (~10层)	目标相关视觉信息融入问题表征

消融实验¶

配置	概率变化	影响层	说明
OtherPatches ↛ Question	底层大幅下降	0-4层	第一阶段主要是全局/背景信息传播
RelatedPatches ↛ Question	中间层下降	~10层	第二阶段主要是目标相关信息传播
小模型 (7b) vs 大模型 (13b)	7b 第一阶段流弱	0-4层	小模型全局信息整合能力较弱
Logit lens 观测	小写答案中间层涌现	~15-20层	语义推理在中间层完成
大写→小写转换	高层进行格式修正	25-40层	语法修正在高层完成

关键发现¶

两阶段视觉融合：底层（0-4层）进行全局视觉信息到问题 token 的传播，约占总信息流的 60%；中间层（~10层）进行问题相关的局部视觉信息传播，约占 21%。两阶段在所有模型和任务上一致
问题 token 是信息枢纽：最终预测几乎完全依赖从问题位置流向最后位置的信息，而非图像直接贡献。这说明多模态融合的主战场在问题 token 的隐表征中
语义先于语法：通过 logit lens 观察到，模型先在中间层生成小写形式的正确答案（语义推理），再在高层将首字母转为大写（语法修正），这是一个全新的发现

亮点与洞察¶

Attention knockout 方法简洁有效：不需要训练探针或额外模型，直接通过阻断注意力边来追踪信息流，可推广到任何基于 Transformer 的多模态模型分析
两阶段融合发现具有指导意义：底层做全局感知、中间层做局部精细融合的模式，暗示可以针对性地在不同层设计不同的视觉 token 压缩策略，而非全层统一处理
"问题 token 是融合枢纽"的发现可以解释为什么 prompt engineering 和问题措辞对 VLM 性能影响很大——因为视觉信息最终需要"存储"在问题 token 的表征中

局限与展望¶

仅在 LLaVA 系列模型上验证，对 Qwen-VL、InternVL 等不同架构的 MLLM 是否有相同规律未知
实验限于 VQA 的单词/短语答案，对长文本生成任务（如图像描述）的信息流模式未探索
Attention knockout 方法基于"阻断注意力等于切断信息流"的假设，但 FFN 层也可能在隐式传递信息（通过残差连接中累积的表征）
未探索如何利用发现的信息流模式来实际改进模型设计（如层级自适应的 token 压缩）

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统揭示 MLLM 中跨模态信息流的两阶段机制，方法虽借鉴已有 knockout 思路，但应用到多模态场景是新贡献
实验充分度: ⭐⭐⭐⭐ 4 个模型、6 类 VQA 任务、多组对照实验，结论一致性强，但缺少非 LLaVA 架构验证
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，从简单到复杂层层推进，图表直观易懂
价值: ⭐⭐⭐⭐ 对多模态模型的可解释性研究有重要贡献，发现可直接指导 token 压缩和模型设计