跳转至

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

会议: ICCV 2025
arXiv: 2403.15388
代码: https://github.com/yuzhangshang/LLaVA-PruMerge
领域: 多模态VLM
关键词: 视觉token压缩, 大型多模态模型, token剪枝与合并, 注意力稀疏性, 高效推理

一句话总结

利用视觉编码器中CLS token与空间token之间注意力分数的稀疏性,自适应地剪枝和合并视觉token,在仅保留5.5%视觉token的情况下维持LMM的可比性能。

研究背景与动机

大型多模态模型(LMM)通过连接视觉编码器(如CLIP-ViT)和大型语言模型来实现视觉推理。然而,这类模型面临严重的效率问题:LLM骨干网络的计算复杂度随输入token数量呈二次增长。以LLaVA-1.5为例,单张图像需要576个视觉token作为前缀输入LLM;Video-LLaVA甚至需要2048个视觉token。随着高分辨率图像和视频理解需求的增长,视觉token数量还在不断膨胀。

现有提升LMM效率的方法主要有两条路线:一是用更小的LLM骨干(如Phi-2替代LLaMA-7B),但这会牺牲推理能力;二是量化压缩,但仍无法解决输入序列过长的根本问题。关键矛盾在于:LMM需要大量视觉token来全面表达视觉内容,但过多的token又带来难以承受的计算开销。

作者的核心观察是:视觉编码器中存在显著的空间冗余。具体而言,在ViT最后一层中,CLS token与绝大多数空间token之间的注意力分数近乎为零(呈高度稀疏分布),这表明只有少数视觉token携带了关键视觉信息。由此,作者提出了一个自然的切入角度:能否利用这种稀疏性来自适应地选择重要的视觉token,从而大幅减少LLM的输入序列长度?

方法详解

整体框架

PruMerge是一个即插即用的视觉token压缩模块,插入在视觉编码器和LLM之间。整个流程分三步:(1) 利用异常检测算法从CLS-空间注意力分数中筛选重要token;(2) 基于Key向量相似度对剩余token进行K近邻聚类;(3) 通过加权平均将被裁减的token信息融合回保留的anchor token中。

关键设计

1. 自适应重要Token选择(AITS)——基于异常检测

  • 功能:根据每张图像的内容复杂度,自适应决定保留多少个视觉token。
  • 核心思路:利用ViT倒数第二层中 \(\mathbf{a}_{\text{cls}} = \text{softmax}\left(\frac{\mathbf{q}_{\text{cls}} \cdot \mathbf{K}^T}{\sqrt{d_k}}\right)\) 计算出的CLS-空间注意力分数。这些分数呈高度稀疏分布——绝大多数token的注意力值接近零,只有少数token有较高的值。采用四分位距(IQR)异常检测方法:上界 fence = Q3 + 1.5 × IQR,超过上界的token被视为"异常值"(即重要token)并保留。
  • 设计动机:简单图像(如蓝天中的广告牌)只需少量token即可充分表达,而包含密集文字的复杂图像则需要更多token。IQR方法无需手动设定阈值,能根据图像复杂度自动调整保留数量。实验显示,不同benchmark的平均token数差异明显(如ScienceQA仅需16个,TextVQA需40个),验证了自适应性的必要性。

2. Token补充(TS)——基于相似Key聚类

  • 功能:将被剪枝的token信息融合到保留的anchor token中,避免信息损失。
  • 核心思路:利用ViT最后一层的Key向量计算token间相似度 \(\text{Sim}(\mathbf{y}_i, \mathbf{y}_j) = \mathbf{k}_i \cdot \mathbf{k}_j^T\),对每个unpruned token找K近邻(被裁减的token作为候选),然后以CLS注意力值 \(\mathbf{a}[i]\) 为权重做加权平均,更新anchor token的表示。
  • 设计动机:当图像中有大面积物体时(如全景中的建筑),过度剪枝可能丢失重要的空间信息。通过合并而非简单丢弃,被裁减token的信息得以保留。Key向量作为相似度度量的选择源于——Key已经在自注意力过程中聚合了位置和语义信息。时间复杂度为 \(O(n)\),优于CrossGet的 \(O(n^2)\)

3. PruMerge+——空间均匀采样增强

  • 功能:在PruMerge的基础上,额外从"不重要"区域中按空间均匀分布采样补充token。
  • 核心思路:以异常token数量为参考比例,在非异常区域中等间距采样,确保被忽略区域也有代表性token。最终token数约为原始的25%(约144个),远少于原始576个,但显著降低了性能损失。
  • 设计动机:纯异常检测可能遗漏虽注意力值不高但对空间布局理解有用的区域。空间均匀采样弥补了这一缺陷,在token压缩率和性能之间取得了更好的平衡。

损失函数 / 训练策略

  • PruMerge可以在无训练模式下直接使用(training-free),也可以通过LoRA微调进一步适配。
  • 微调时使用LLaVA-1.5原始的指令微调数据,仅训练1个epoch。
  • 微调让LLM适应压缩后的视觉token结构,在大多数benchmark上带来进一步提升。

实验关键数据

主实验

方法 LLM VQAv2 SQA-I TextVQA POPE MME MMB
LLaVA-1.5 Vicuna-7B 78.5 66.8 58.2 85.9 1510.7 64.3
+ PruMerge (5.5% tokens) Vicuna-7B 72.0 68.5 56.0 76.3 1350.3 60.9
+ PruMerge+ (25% tokens) Vicuna-7B 76.8 68.3 57.1 84.0 1462.4 64.9
LLaVA-1.5 Vicuna-13B 80.0 71.6 61.3 85.9 1531.3 67.7
+ PruMerge+ (25% tokens) Vicuna-13B 77.8 71.0 58.6 84.4 1485.5 65.7

PruMerge+在ScienceQA上甚至超过原始LLaVA-1.5,说明去除冗余token实际上有助于模型聚焦关键信息。

消融实验

配置 TextVQA MME POPE 说明
PruMerge (AITS only) 54.8 1221.6 75.7 仅剪枝,无合并
PruMerge (AITS + TS) 56.0 1350.3 76.3 加入token合并,性能显著恢复
Sequential Sampling (40 tokens) 42.7 703.6 11.7 随机序列采样,性能崩溃
Spatial 5×8 (40 tokens) 46.9 1180.2 69.8 均匀空间采样
PruMerge (40 tokens) 54.0 1250.1 76.2 自适应选择明显优于固定策略

效率分析:PruMerge将LLM Prefill FLOPs从9.3TB降至0.91TB(降低10倍),Prefill时间从88.6ms降至15.3ms,激活内存从4.60GB降至0.28GB。

关键发现

  • 与单模态token压缩方法(ToMe、EViT、ATS)在LMM上的对比中,PruMerge+以25%压缩率取得76.8 VQAv2分数,大幅超越ToMe(66.0)、ATS(66.7)、EViT(65.5)。
  • Video-LLaVA上无需训练即可使用PruMerge,且反而提升了性能,说明视频LLM中存在更严重的token冗余。
  • 注意力稀疏性是跨模型普遍存在的现象,不局限于特定的ViT架构。

亮点与洞察

  • 稀疏性即信号:CLS注意力的稀疏分布不是缺陷,而是天然的token重要性指标。将统计异常检测用于视觉token选择是一个简洁而有效的创新。
  • 即插即用:PruMerge不需要修改视觉编码器或LLM内部结构,仅在二者之间插入轻量模块。
  • 区分LMM与ViT的token压缩:作者明确指出LMM的效率瓶颈在LLM而非ViT,因此token压缩的目标应是减少LLM的输入长度,而非ViT的内部计算——这与单模态方法的设计理念根本不同。

局限与展望

  • VQAv2和POPE等依赖全局空间理解的任务上仍有可观的性能下降(PruMerge在POPE上从85.9降到76.3)。
  • 当前的IQR阈值是固定策略,未针对不同任务或数据集动态调整。
  • 仅在LLaVA和Video-LLaVA上验证,缺少在更先进的LMM(如Qwen-VL、InternVL)上的实验。
  • token选择是在最后一层做的一次性决策,未考虑多层次信息的逐步筛选。

相关工作与启发

  • 与ToMe(Token Merging)的思路相承,但ToMe专注于ViT内部的逐层token合并,时间复杂度更高且不适合LMM场景。
  • 对高分辨率LMM(如LLaVA-Next、Monkey等动辄数千token的模型)有很强的实用价值。
  • 启发方向:能否将token选择与LLM内部的注意力机制联合优化?例如让LLM在推理过程中动态请求更多/更少的视觉token。

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文