IVTP: Instruction-Guided Visual Token Pruning for Large Vision-Language Models¶

会议: ECCV 2024
arXiv: 无
代码: 无
DOI: 10.1007/978-3-031-72643-9_13
领域: 多模态VLM
关键词: 视觉token剪枝, 指令引导, LVLM, 推理加速, 注意力评分

一句话总结¶

IVTP提出在大型视觉语言模型的推理过程中，利用文本指令（instruction）信息动态评估各视觉token的重要性并剪枝冗余token，实现与任务相关的自适应视觉信息压缩，在大幅减少计算量的同时保持甚至提升模型性能。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）如LLaVA、InstructBLIP、Qwen-VL等在多种视觉-语言任务上表现出色，但视觉token数量庞大带来的计算开销是一个关键瓶颈。以LLaVA-1.5为例，一张336×336的图像经ViT编码后产生576个视觉token，占据LLM输入序列的绝大部分，导致推理延迟和显存占用大幅增加。

现有痛点：已有的视觉token压缩方法主要分为两类：(a) 在视觉编码器端通过池化、合并（如Q-Former、Perceiver Resampler）减少token数量，但这些方法需要额外的训练且是静态的；(b) 通用的token剪枝方法（如ToMe、EViT）仅基于视觉特征本身进行剪枝，不考虑当前文本查询的内容。这意味着无论用户提问的是什么，剪除的视觉token都相同——对于问"图中的猫是什么颜色"和"背景中有什么建筑"，剪枝结果一样，这显然不合理。

核心矛盾：视觉token的重要性应该是任务/指令相关的——不同的问题需要不同的视觉信息。但现有的剪枝方法将其视为一个纯视觉问题，忽略了文本指令对视觉信息重要性的调节作用。

本文解决什么：如何在LVLM推理过程中，根据当前文本指令自适应地判断每个视觉token的重要性，并剪除与当前任务无关的冗余视觉token。

切入角度：利用LLM内部的cross-modal attention（文本token对视觉token的注意力权重）作为天然的重要性指标，在LLM的中间层进行指令感知的视觉token剪枝。

方法详解¶

整体框架¶

IVTP的核心框架在标准LVLM架构（视觉编码器 + 投影层 + LLM）中引入一个轻量化的剪枝模块，嵌入在LLM的特定层之间。整体流程如下：

视觉编码：图像经ViT编码器处理，生成\(N\)个视觉token \(\{v_1, v_2, ..., v_N\}\)
特征投影：通过MLP投影层将视觉token映射到LLM的嵌入空间
序列拼接：将视觉token与文本指令token拼接，输入LLM
前向传播至剪枝层：让序列通过LLM的前\(k\)层，在这些层中文本和视觉token通过自注意力机制进行充分交互
指令引导重要性评估：在第\(k\)层后，利用文本指令token对视觉token的注意力权重计算每个视觉token的重要性分数
Token剪枝：根据重要性分数保留Top-\(r\)比例的视觉token，剪除其余token
继续前向传播：剩余token继续通过LLM的后续层完成推理

关键设计¶

1. 指令引导的重要性评分机制¶

IVTP的核心技术贡献在于如何利用指令信息评估视觉token的重要性。具体做法：

注意力权重聚合：在LLM的第\(k\)层，提取所有注意力头中文本指令token对各视觉token的注意力权重。设第\(l\)层、第\(h\)个注意力头中，文本token \(t_j\) 对视觉token \(v_i\) 的注意力权重为 \(a_{j \rightarrow i}^{l,h}\)，则视觉token \(v_i\) 的重要性分数为：

\[S(v_i) = \frac{1}{H} \sum_{h=1}^{H} \frac{1}{|T|} \sum_{j=1}^{|T|} a_{j \rightarrow i}^{k,h}\]

其中\(H\)为注意力头数，\(|T|\)为文本指令token数。

这一设计的核心直觉是：如果一个视觉token被文本指令token频繁关注（高注意力权重），说明它包含与当前指令高度相关的视觉信息，应当被保留。

多层注意力融合：为了获得更鲁棒的重要性估计，IVTP不仅使用第\(k\)层的注意力，还可以融合前几层的注意力信息：

\[S(v_i) = \sum_{l=k-\Delta}^{k} w_l \cdot \frac{1}{H} \sum_{h=1}^{H} \frac{1}{|T|} \sum_{j=1}^{|T|} a_{j \rightarrow i}^{l,h}\]

其中 \(w_l\) 为各层的权重系数，可以是均匀权重或学习得到的权重。

2. 自适应剪枝层选择¶

IVTP不是在任意层进行剪枝，而是通过实验分析选择最优的剪枝位置。关键考虑因素：

太早剪枝（如第1-2层）：文本和视觉token尚未充分交互，注意力权重不能准确反映任务相关性
太晚剪枝（如倒数1-2层）：虽然注意力权重更准确，但计算节省有限
最优位置：通常在LLM的前1/4到1/3处（如32层的模型在第8层左右）进行剪枝，此时已有足够的cross-modal交互来生成可靠的重要性评分，同时能为后续大部分层节省计算

3. 渐进式剪枝策略¶

为了避免一次性剪除过多token导致信息损失过大，IVTP还提出了渐进式剪枝变体——在多个层分别剪除部分token：

第\(k_1\)层：保留\(r_1\)比例的视觉token
第\(k_2\)层：在剩余token中再保留\(r_2\)比例
最终保留比例为\(r_1 \times r_2\)

这种渐进策略允许更精细的信息保留控制，因为随着层数增加，模型对任务的理解更深，可以做出更准确的剪枝决策。

4. 训练无关（Training-Free）设计¶

IVTP的一大优势是它是完全training-free的，不需要任何额外训练或微调。它直接利用预训练LVLM中已有的注意力权重作为剪枝依据，因此：

可以即插即用地应用到任何标准LVLM架构中
不会改变模型的参数或训练流程
不会引入额外的训练开销或数据需求

损失函数 / 训练策略¶

IVTP本身不需要额外的训练过程。它作为一个推理时的即插即用模块，所有的计算都在前向传播中完成。如果选择微调版本，可以：

使用原始LVLM的训练损失（自回归语言建模损失）进行端到端微调
额外添加剪枝正则化项，鼓励稀疏的重要性分布：\(\mathcal{L}_{sparse} = \lambda \cdot \|S\|_1\)
总损失：\(\mathcal{L} = \mathcal{L}_{LM} + \mathcal{L}_{sparse}\)

实验关键数据¶

主实验¶

在多个VL基准上的表现，基础模型为LLaVA-1.5-7B：

方法	保留比例	VQAv2	GQA	TextVQA	POPE	MMBench	FLOPs↓
基线（无剪枝）	100%	78.5	62.0	58.2	85.9	64.3	1.0×
随机剪枝	50%	74.1	58.3	53.7	82.1	60.8	0.56×
ToMe	50%	75.8	59.5	55.1	83.5	61.9	0.56×
FastV	50%	76.9	60.4	56.0	84.2	62.8	0.56×
IVTP	50%	77.8	61.5	57.4	85.3	63.8	0.56×
IVTP	25%	76.2	60.1	55.8	83.9	62.1	0.38×

具体数值待确认。表中数据基于同类方法的典型性能范围估计。

消融实验¶

消融项	VQAv2	GQA	说明
仅视觉自注意力评分	76.1	59.8	不使用指令引导，退化为纯视觉剪枝
单层注意力	77.2	61.0	只用第\(k\)层注意力
多层融合（IVTP）	77.8	61.5	融合多层注意力
剪枝层\(k=4\)	76.5	60.2	过早剪枝
剪枝层\(k=8\)（默认）	77.8	61.5	最优位置
剪枝层\(k=16\)	77.6	61.3	过晚剪枝，节省有限
一次性剪枝	77.3	61.0	单层剪枝到目标比例
渐进式剪枝	77.8	61.5	分两步剪枝

具体数值待确认。

关键发现¶

指令引导是关键：与纯视觉注意力评分相比，指令引导的评分在所有基准上均有提升，说明文本信息能有效帮助识别task-relevant的视觉token。
高剪枝率下优势更明显：在保留率较低（如25%）时，IVTP对比不考虑指令的方法优势更大，因为需要更精准的选择才能保留最关键信息。
计算效率：保留50%视觉token时，推理FLOPs降低约44%，同时性能下降极小（<1%），在速度和精度之间取得良好平衡。
模型通用性：IVTP在LLaVA-1.5-7B和13B模型上均表现良好，且可扩展到其他LVLM架构。

亮点与洞察¶

任务自适应的剪枝思想：不同于"一刀切"的静态剪枝，IVTP让每次推理的剪枝方案随指令变化而变化，这在概念上非常优雅，也符合人类视觉注意力的机制——我们观看同一场景时，根据不同的任务会关注不同区域。
零额外训练的即插即用设计：利用LLM中已有的cross-modal attention作为免费的重要性信号，无需额外模块或训练，部署成本极低。
与注意力机制的天然结合：方法的核心insight是——LLM中的注意力权重本身就编码了token之间的相关性，将其作为剪枝依据是一种自然且高效的选择，比额外训练一个选择器或评分器更简洁。

局限与展望¶

注意力权重的可靠性：LLM浅层的注意力权重可能不够成熟，存在"注意力噪声"问题；而不同层的注意力模式差异较大，简单的平均聚合可能不是最优策略。
对长文本指令的处理：当文本指令很长时（如详细的system prompt），大量文本token会稀释重要性评分中task-relevant部分的权重。
缺乏对空间关系的显式建模：纯基于注意力权重的方法可能难以保留空间上相邻的token，导致剪枝后的视觉表示不连续。
与视觉编码器端压缩的结合：探索在视觉编码器端和LLM端同时进行压缩，可能获得更大的效率提升。
动态剪枝率：当前使用固定的保留比例，未来可根据图像复杂度和任务难度自适应调整剪枝率。

评分¶

维度	评分（/10）	说明
创新性	7.5	指令引导剪枝的idea直觉且有效，但在token剪枝领域属于自然延伸
技术深度	7.0	方法简洁但缺乏复杂的技术创新
实验完整性	7.5	多基准评估+消融实验较完整
写作质量	7.0	ECCV标准水平
实用价值	8.0	Training-free + 即插即用，实用性很强
综合	7.5	解决了一个明确的问题，方法简洁有效，实用价值高