Cross-modal Information Flow in Multimodal Large Language Models¶
会议: CVPR 2025
arXiv: 2411.18620
代码: https://github.com/FightingFighting/cross-modal-information-flow-in-MLLM
领域: 多模态VLM
关键词: 多模态信息流、注意力机制可解释性、跨模态融合、LLaVA、VQA
一句话总结¶
通过"attention knockout"方法系统性地追踪 MLLM 中视觉和语言信息的流动路径,发现视觉信息分两阶段(先全局后局部)融入语言表征,最终在中间层由问题位置传播到最后位置生成答案。
研究背景与动机¶
领域现状:自回归多模态大语言模型(MLLMs)在 VQA 等视觉-语言任务上取得了显著进展,但其内部工作机制——特别是视觉和语言信息如何交互融合——仍然是个黑箱。
现有痛点:已有的可解释性工作主要关注单一方面,如参数中的知识存储、视觉 token 冗余、安全机制定位等,但缺乏对两个模态之间信息流动路径的全面理解。我们不知道模型在哪些层、以什么方式将图像信息和文本信息整合起来。
核心矛盾:MLLM 中注意力模块是唯一允许不同位置隐表征之间通信的组件,但我们不清楚这种通信在不同层的功能分工——是所有层都在做融合,还是存在明确的阶段划分?
本文目标 三个具体问题:(1) 视觉信息如何从图像 token 传播到问题 token?(2) 这种传播是粗粒度全局的还是细粒度局部的?(3) 融合后的多模态信息如何最终到达最后位置生成答案?
切入角度:借鉴 NLP 领域 mechanistic interpretability 中的 attention knockout 方法——通过选择性地阻断特定层中特定 token 对之间的注意力边,观察答案预测概率的变化来反向推断信息流路径。
核心 idea:用 attention knockout 逐层阻断跨模态注意力边,揭示 MLLM 中视觉-语言信息融合的两阶段机制和三步预测流程。
方法详解¶
整体框架¶
以自回归 MLLM(如 LLaVA 系列)为研究对象,输入为 [图像 patch 特征, 问题 token] 的拼接序列。在每一层的 masked multi-head attention 中,通过修改注意力掩码矩阵,将特定 source 集合(如图像 token)到 target 集合(如问题 token)的注意力边设为 \(-\infty\),从而阻断两组 token 之间的信息流动。然后对比阻断前后答案预测概率的相对变化 \(p_c\% = ((p_2 - p_1)/p_1) \times 100\),来量化该信息流的重要性。
关键设计¶
-
Attention Knockout 方法:
- 功能:选择性阻断特定 token 组之间的注意力连接
- 核心思路:在注意力掩码矩阵 \(M\) 中,对 source 集合 \(\mathbb{S}\) 到 target 集合 \(\mathbb{T}\) 的所有位置对 \((s,t)\) 设置 \(M_{s,t} = -\infty\),使 softmax 后注意力权重为零。以滑动窗口 \(k=9\) 层为单位进行阻断,避免单层效果太弱
- 设计动机:注意力是 Transformer 中唯一的跨位置通信模块,阻断它等于切断信息流。比梯度方法更直接,能精确定位信息传递发生的层
-
三组对照实验设计:
- 功能:分解不同模态对最终预测的贡献路径
- 核心思路:设计三组 knockout 实验——(a) Image→Last vs Question→Last:测试哪个模态直接影响最终预测;(b) Image→Question:测试视觉信息是否间接通过问题 token 传播;(c) RelatedPatches→Question vs OtherPatches→Question:区分全局和局部视觉信息的贡献
- 设计动机:自回归模型中图像在前、问题在后,图像无法 attend 问题,因此只有两种路径——图像直接到最后位置,或先到问题再到最后位置
-
细粒度图像区域拆分:
- 功能:区分问题相关的图像区域和背景区域的信息贡献
- 核心思路:利用 GQA 数据集的 bounding box 标注,将图像 patch 分为包含被提问对象的 \(V_{obj}\) 和其余 \(V_{oth}\),分别做 knockout 观察两类区域在不同层的信息流差异
- 设计动机:验证模型是否真的"理解"了问题指向的对象,还是只依赖全局统计特征
损失函数 / 训练策略¶
本文为分析论文,不涉及训练。实验在 LLaVA-1.5-7b/13b、LLaVA-v1.6-Vicuna-7b、Llama3-LLaVA-NEXT-8b 四个预训练模型上进行,使用 GQA 数据集的 6 类 VQA 任务。
实验关键数据¶
主实验¶
| 实验设置 (LLaVA-1.5-13b) | 最大概率下降 | 关键层范围 | 说明 |
|---|---|---|---|
| Question ↛ Last | ~30% | 中间层 (15-25层) | 问题信息直接驱动最终预测 |
| Image ↛ Last | ~5% | - | 图像信息不直接影响最终预测 |
| Last ↛ Last | ~0% | - | 最后位置自身输入不含关键信息 |
| Image ↛ Question (第一阶段) | ~60% | 底层 (0-4层) | 全局视觉信息融入问题表征 |
| Image ↛ Question (第二阶段) | ~21% | 中间层 (~10层) | 目标相关视觉信息融入问题表征 |
消融实验¶
| 配置 | 概率变化 | 影响层 | 说明 |
|---|---|---|---|
| OtherPatches ↛ Question | 底层大幅下降 | 0-4层 | 第一阶段主要是全局/背景信息传播 |
| RelatedPatches ↛ Question | 中间层下降 | ~10层 | 第二阶段主要是目标相关信息传播 |
| 小模型 (7b) vs 大模型 (13b) | 7b 第一阶段流弱 | 0-4层 | 小模型全局信息整合能力较弱 |
| Logit lens 观测 | 小写答案中间层涌现 | ~15-20层 | 语义推理在中间层完成 |
| 大写→小写转换 | 高层进行格式修正 | 25-40层 | 语法修正在高层完成 |
关键发现¶
- 两阶段视觉融合:底层(0-4层)进行全局视觉信息到问题 token 的传播,约占总信息流的 60%;中间层(~10层)进行问题相关的局部视觉信息传播,约占 21%。两阶段在所有模型和任务上一致
- 问题 token 是信息枢纽:最终预测几乎完全依赖从问题位置流向最后位置的信息,而非图像直接贡献。这说明多模态融合的主战场在问题 token 的隐表征中
- 语义先于语法:通过 logit lens 观察到,模型先在中间层生成小写形式的正确答案(语义推理),再在高层将首字母转为大写(语法修正),这是一个全新的发现
亮点与洞察¶
- Attention knockout 方法简洁有效:不需要训练探针或额外模型,直接通过阻断注意力边来追踪信息流,可推广到任何基于 Transformer 的多模态模型分析
- 两阶段融合发现具有指导意义:底层做全局感知、中间层做局部精细融合的模式,暗示可以针对性地在不同层设计不同的视觉 token 压缩策略,而非全层统一处理
- "问题 token 是融合枢纽"的发现可以解释为什么 prompt engineering 和问题措辞对 VLM 性能影响很大——因为视觉信息最终需要"存储"在问题 token 的表征中
局限与展望¶
- 仅在 LLaVA 系列模型上验证,对 Qwen-VL、InternVL 等不同架构的 MLLM 是否有相同规律未知
- 实验限于 VQA 的单词/短语答案,对长文本生成任务(如图像描述)的信息流模式未探索
- Attention knockout 方法基于"阻断注意力等于切断信息流"的假设,但 FFN 层也可能在隐式传递信息(通过残差连接中累积的表征)
- 未探索如何利用发现的信息流模式来实际改进模型设计(如层级自适应的 token 压缩)
相关工作与启发¶
- vs Logit Lens / Tuned Lens:这些方法只能观察每层的输出分布变化,无法揭示模态间的信息传递路径。本文的 knockout 方法能直接定位跨模态信息流发生的层和方向
- vs FastV / Token 压缩方法:这些方法在经验上删减视觉 token,本文的发现为它们提供了理论依据——底层需要全局 token,中间层之后只需保留与问题相关的局部 token
- vs Probing 方法:Probing 检测表征中"包含什么信息",本文揭示"信息从哪来、怎么来的",两者互补
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统揭示 MLLM 中跨模态信息流的两阶段机制,方法虽借鉴已有 knockout 思路,但应用到多模态场景是新贡献
- 实验充分度: ⭐⭐⭐⭐ 4 个模型、6 类 VQA 任务、多组对照实验,结论一致性强,但缺少非 LLaVA 架构验证
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,从简单到复杂层层推进,图表直观易懂
- 价值: ⭐⭐⭐⭐ 对多模态模型的可解释性研究有重要贡献,发现可直接指导 token 压缩和模型设计
相关论文¶
- [NeurIPS 2025] FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models
- [CVPR 2026] Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow
- [ICML 2025] Vision-Language Models Create Cross-Modal Task Representations
- [NeurIPS 2025] On the Value of Cross-Modal Misalignment in Multimodal Representation Learning
- [AAAI 2026] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models