LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models¶

会议: ICCV 2025
arXiv: 2403.15388
代码: https://github.com/yuzhangshang/LLaVA-PruMerge
领域: 多模态VLM
关键词: 视觉token压缩, 大型多模态模型, token剪枝与合并, 注意力稀疏性, 高效推理

一句话总结¶

利用视觉编码器中CLS token与空间token之间注意力分数的稀疏性，自适应地剪枝和合并视觉token，在仅保留5.5%视觉token的情况下维持LMM的可比性能。

研究背景与动机¶

大型多模态模型（LMM）通过连接视觉编码器（如CLIP-ViT）和大型语言模型来实现视觉推理。然而，这类模型面临严重的效率问题：LLM骨干网络的计算复杂度随输入token数量呈二次增长。以LLaVA-1.5为例，单张图像需要576个视觉token作为前缀输入LLM；Video-LLaVA甚至需要2048个视觉token。随着高分辨率图像和视频理解需求的增长，视觉token数量还在不断膨胀。

现有提升LMM效率的方法主要有两条路线：一是用更小的LLM骨干（如Phi-2替代LLaMA-7B），但这会牺牲推理能力；二是量化压缩，但仍无法解决输入序列过长的根本问题。关键矛盾在于：LMM需要大量视觉token来全面表达视觉内容，但过多的token又带来难以承受的计算开销。

作者的核心观察是：视觉编码器中存在显著的空间冗余。具体而言，在ViT最后一层中，CLS token与绝大多数空间token之间的注意力分数近乎为零（呈高度稀疏分布），这表明只有少数视觉token携带了关键视觉信息。由此，作者提出了一个自然的切入角度：能否利用这种稀疏性来自适应地选择重要的视觉token，从而大幅减少LLM的输入序列长度？

方法详解¶

整体框架¶

PruMerge是一个即插即用的视觉token压缩模块，插入在视觉编码器和LLM之间。整个流程分三步：(1) 利用异常检测算法从CLS-空间注意力分数中筛选重要token；(2) 基于Key向量相似度对剩余token进行K近邻聚类；(3) 通过加权平均将被裁减的token信息融合回保留的anchor token中。

关键设计¶

1. 自适应重要Token选择（AITS）——基于异常检测¶

功能：根据每张图像的内容复杂度，自适应决定保留多少个视觉token。
核心思路：利用ViT倒数第二层中 \(\mathbf{a}_{\text{cls}} = \text{softmax}\left(\frac{\mathbf{q}_{\text{cls}} \cdot \mathbf{K}^T}{\sqrt{d_k}}\right)\) 计算出的CLS-空间注意力分数。这些分数呈高度稀疏分布——绝大多数token的注意力值接近零，只有少数token有较高的值。采用四分位距（IQR）异常检测方法：上界 fence = Q3 + 1.5 × IQR，超过上界的token被视为"异常值"（即重要token）并保留。
设计动机：简单图像（如蓝天中的广告牌）只需少量token即可充分表达，而包含密集文字的复杂图像则需要更多token。IQR方法无需手动设定阈值，能根据图像复杂度自动调整保留数量。实验显示，不同benchmark的平均token数差异明显（如ScienceQA仅需16个，TextVQA需40个），验证了自适应性的必要性。

2. Token补充（TS）——基于相似Key聚类¶

功能：将被剪枝的token信息融合到保留的anchor token中，避免信息损失。
核心思路：利用ViT最后一层的Key向量计算token间相似度 \(\text{Sim}(\mathbf{y}_i, \mathbf{y}_j) = \mathbf{k}_i \cdot \mathbf{k}_j^T\)，对每个unpruned token找K近邻（被裁减的token作为候选），然后以CLS注意力值 \(\mathbf{a}[i]\) 为权重做加权平均，更新anchor token的表示。
设计动机：当图像中有大面积物体时（如全景中的建筑），过度剪枝可能丢失重要的空间信息。通过合并而非简单丢弃，被裁减token的信息得以保留。Key向量作为相似度度量的选择源于——Key已经在自注意力过程中聚合了位置和语义信息。时间复杂度为 \(O(n)\)，优于CrossGet的 \(O(n^2)\)。

3. PruMerge+——空间均匀采样增强¶

功能：在PruMerge的基础上，额外从"不重要"区域中按空间均匀分布采样补充token。
核心思路：以异常token数量为参考比例，在非异常区域中等间距采样，确保被忽略区域也有代表性token。最终token数约为原始的25%（约144个），远少于原始576个，但显著降低了性能损失。
设计动机：纯异常检测可能遗漏虽注意力值不高但对空间布局理解有用的区域。空间均匀采样弥补了这一缺陷，在token压缩率和性能之间取得了更好的平衡。

损失函数 / 训练策略¶

PruMerge可以在无训练模式下直接使用（training-free），也可以通过LoRA微调进一步适配。
微调时使用LLaVA-1.5原始的指令微调数据，仅训练1个epoch。
微调让LLM适应压缩后的视觉token结构，在大多数benchmark上带来进一步提升。

实验关键数据¶

主实验¶

方法	LLM	VQAv2	SQA-I	TextVQA	POPE	MME	MMB
LLaVA-1.5	Vicuna-7B	78.5	66.8	58.2	85.9	1510.7	64.3
+ PruMerge (5.5% tokens)	Vicuna-7B	72.0	68.5	56.0	76.3	1350.3	60.9
+ PruMerge+ (25% tokens)	Vicuna-7B	76.8	68.3	57.1	84.0	1462.4	64.9
LLaVA-1.5	Vicuna-13B	80.0	71.6	61.3	85.9	1531.3	67.7
+ PruMerge+ (25% tokens)	Vicuna-13B	77.8	71.0	58.6	84.4	1485.5	65.7

PruMerge+在ScienceQA上甚至超过原始LLaVA-1.5，说明去除冗余token实际上有助于模型聚焦关键信息。

消融实验¶

配置	TextVQA	MME	POPE	说明
PruMerge (AITS only)	54.8	1221.6	75.7	仅剪枝，无合并
PruMerge (AITS + TS)	56.0	1350.3	76.3	加入token合并，性能显著恢复
Sequential Sampling (40 tokens)	42.7	703.6	11.7	随机序列采样，性能崩溃
Spatial 5×8 (40 tokens)	46.9	1180.2	69.8	均匀空间采样
PruMerge (40 tokens)	54.0	1250.1	76.2	自适应选择明显优于固定策略

效率分析：PruMerge将LLM Prefill FLOPs从9.3TB降至0.91TB（降低10倍），Prefill时间从88.6ms降至15.3ms，激活内存从4.60GB降至0.28GB。

关键发现¶

与单模态token压缩方法（ToMe、EViT、ATS）在LMM上的对比中，PruMerge+以25%压缩率取得76.8 VQAv2分数，大幅超越ToMe(66.0)、ATS(66.7)、EViT(65.5)。
Video-LLaVA上无需训练即可使用PruMerge，且反而提升了性能，说明视频LLM中存在更严重的token冗余。
注意力稀疏性是跨模型普遍存在的现象，不局限于特定的ViT架构。

亮点与洞察¶

稀疏性即信号：CLS注意力的稀疏分布不是缺陷，而是天然的token重要性指标。将统计异常检测用于视觉token选择是一个简洁而有效的创新。
即插即用：PruMerge不需要修改视觉编码器或LLM内部结构，仅在二者之间插入轻量模块。
区分LMM与ViT的token压缩：作者明确指出LMM的效率瓶颈在LLM而非ViT，因此token压缩的目标应是减少LLM的输入长度，而非ViT的内部计算——这与单模态方法的设计理念根本不同。

局限与展望¶

VQAv2和POPE等依赖全局空间理解的任务上仍有可观的性能下降（PruMerge在POPE上从85.9降到76.3）。
当前的IQR阈值是固定策略，未针对不同任务或数据集动态调整。
仅在LLaVA和Video-LLaVA上验证，缺少在更先进的LMM（如Qwen-VL、InternVL）上的实验。
token选择是在最后一层做的一次性决策，未考虑多层次信息的逐步筛选。

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐