AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning¶

会议: ICCV 2025
arXiv: 2412.03248
代码: https://github.com/LaVi-Lab/AIM
领域: 多模态VLM
关键词: 多模态LLM, 自适应推理, token合并, token剪枝, 视频理解效率

一句话总结¶

提出 AIM，一种无需训练的多模态LLM自适应推理方法，通过LLM前基于相似度的视觉token迭代合并和LLM层内基于PageRank重要性的渐进token剪枝，实现6.8倍FLOPs削减同时保持性能，在长视频理解上同等计算量下甚至超越SOTA (+4.6 MLVU)。

领域现状：多模态LLM依赖大量视觉token（视频可达数千），计算开销巨大，限制了实时部署和长视频处理。

现有痛点：FastV和PDrop等方法仅在LLM特定层剪枝，缺乏灵活性；LLaVA-Prumerge仅在LLM前处理。无法自适应地适配不同的计算预算。

核心 idea：在LLM前合并相似token减少冗余 + 在LLM层内渐进剪枝不重要token，两个旋钮可灵活调节计算量。

LLM前token合并: 基于余弦相似度将相邻视觉token分为A/B集合，找到最相似配对后取平均合并。视频中在帧内合并（跨帧合并会破坏时间顺序）
LLM层内渐进剪枝: 用PageRank算法在自注意力权重矩阵上计算每个token的重要性分数。仅剪枝视觉token，保留文本token（剪枝文本token会严重降低性能）
分段线性调度器: 前 \(l_1\) 层保留所有token，\(l_1\) 到 \(l_2\) 层线性递减，\(l_2\) 之后完全去除视觉token。发现早期层负责跨模态融合（不能剪），晚期层偏向文本推理（可大幅剪）

模型	FLOPs (TB)	VideoMME	MLVU
LLaVA-OV-7B	99.63	58.2	64.7
AIM	14.67	57.4	69.3
FastV	21.24	50.1	54.1

\(l_1\)	\(l_2\)	保留比例	VideoMME	FLOPs(TB)
4	20	25%	57.4	14.67
8	24	25%	56.8	15.23
4	20	50%	58.0	28.45
0	16	25%	52.1	12.34

模型	原始FLOPs	AIM FLOPs	性能保留
LLaVA-OV-7B	99.6TB	14.7TB	98.6%
Qwen2-VL-7B	85.3TB	12.5TB	97.8%