Efficient Vision-Language Reasoning via Adaptive Token Pruning¶

会议: NeurIPS 2025 (Workshop on VLM4RWD)
arXiv: 2512.12701
代码: 无
领域: 多模态VLM
关键词: 视觉token剪枝, 推理加速, 多模态效率, 免训练压缩, 边缘部署

一句话总结¶

提出 Adaptive Token Pruning (ATP)，一种免训练的即插即用模块，通过融合 ViT CLS 注意力（模态内显著性）和 CLIP 文本-图像相似度（模态间相关性）来筛选最有信息量的视觉 token，在 VQA/GQA/COCO Captioning 上以约 40% FLOPs 降低和 1.5 倍加速换取不到 1% 的精度损失。

研究背景与动机¶

VLM（如 BLIP-2、LLaVA、Flamingo）通常将 ViT 产生的所有视觉 patch token 传递给 LLM，但其中大量 token 对应背景区域或重复结构（如空白墙面、相似的箱体表面），带来冗余计算和内存消耗。在机器人、自动驾驶、辅助技术等实时场景中，高延迟和大内存需求严重制约了 VLM 的边缘部署。

现有 token 缩减方法（如 Token Merging、Token Dropping）通常需要重新训练或修改模型内部结构，限制了实际可用性。ATP 的核心动机是设计一种免训练、架构无关的轻量级门控模块，在 ViT 和 LLM 之间插入，只传递语义上最重要的视觉 token。

方法详解¶

整体框架¶

ATP 在 VLM 推理流水线中的位置是 ViT 最后一层输出和 vision-to-language projector 之间。ViT、projector、LLM 全部保持冻结，ATP 只运行一次，在视觉 token 与语言交互之前完成剪枝，从而最大化后续 LLM prefill 阶段的计算节省。

输入有两个来源：

视觉 token：\(V = \{v_1, \ldots, v_N\}\)，来自 ViT 最后一层的 patch 嵌入
文本嵌入：\(T\)，来自冻结 CLIP 文本编码器对用户提示的编码

关键设计¶

模态内显著性 \(S_{\text{intra}}(i)\)¶

利用 ViT 最后一层的 CLS 注意力图来估计每个 patch token 在视觉模态内的重要性。CLS 注意力高的 token 通常对应图像中的显著区域（物体、关键结构），这与可解释性研究一致。

\[S_{\text{intra}}(i) = \frac{1}{Z} \sum_j \text{Attention}_{ij}\]

其中 \(Z\) 是归一化常数。这是一个与查询无关的"物体性"度量。

模态间相关性 \(S_{\text{inter}}(i)\)¶

评估视觉 token \(v_i\) 与文本提示的对齐程度。作者特别强调，使用与 VLM 冻结视觉主干匹配的 CLIP 文本编码器（如 CLIP-ViT-L/14），确保点积运算在统一的嵌入空间中进行。

\[S_{\text{inter}}(i) = \frac{E_{\text{ViT}}(v_i) \cdot E_{\text{CLIP}}(T)}{\|E_{\text{ViT}}(v_i)\| \; \|E_{\text{CLIP}}(T)\|}\]

与提示语义强相关的 token（如 "dog"、"robot arm"）获得更高分数。

分数融合与 Top-K 选择¶

两个显著性项归一化后加权融合：

\[S(i) = \alpha \cdot N(S_{\text{inter}}(i)) + (1-\alpha) \cdot N(S_{\text{intra}}(i))\]

\(\alpha\) 高：ATP 更注重查询相关性（query-focused）
\(\alpha\) 低：ATP 更注重通用物体显著性（objectness-driven）

按 \(S(i)\) 排序后保留 Top-K 个 token：\(V_{\text{pruned}} = \text{TopK}(V, K)\)。背景 patch（草地、天空、空白墙）被剪除。

推理效率提升¶

ATP 剪枝视觉 token 带来两大效率收益：

LLM FLOPs 减少：LLM 处理更短的视觉前缀序列，prefill 阶段计算量显著降低
KV-cache 内存减少：更少的视觉 token 意味着注意力 KV 缓存增长更慢

由于 ATP 复用 ViT CLS 注意力图和 CLIP 文本嵌入，自身开销可忽略不计。

系统集成¶

ATP 不需要：重新训练 ViT 或 LLM、修改 LLM 内部注意力层、定制架构变更。完全即插即用，适合实时机器人、移动部署等边缘场景。

实验关键数据¶

主实验¶

表1：初步效率分析（LLaVA-7B backbone）

方法	视觉 Token 数	相对 FLOPs	预估精度变化
Baseline (Full)	256 (100%)	1.0×	-
ATP (Ours)	~150 (60%)	0.6×	<1% 下降

表2：跨任务初步结果

基准	任务类型	ATP 效果
VQAv2	视觉问答	FLOPs 减少约 40%，精度损失 <1%
GQA	组合推理	类似效率收益
COCO Captioning	图像描述	保持生成质量

消融实验¶

论文目前仅提供初步观察：

鲁棒性提升：在高斯噪声、模糊、遮挡等视觉损坏下，ATP 会剪除噪声背景 patch 并保留稳定的物体区域，提升模型聚焦能力
文本扰动鲁棒性：面对改写问题或干扰短语，ATP 剪除不相关 patch，在小规模测试中减少了幻觉回答
\(\alpha\) 超参数和剪枝调度尚未充分优化

关键发现¶

ATP 能在保持多模态推理质量的前提下大幅降低计算成本
剪枝不仅提升效率，还可能抑制伪相关和幻觉特征，资源受限推理与模型可靠性并非互斥
ATP 还可作为模型可解释性工具 — 通过可视化保留/剪除的 patch 来理解模型关注什么

亮点与洞察¶

思路极其简洁：融合两个现成信号（CLS attention + CLIP similarity）做排序，无需训练，即插即用
同时提升效率和鲁棒性的发现具有启发性 — 说明冗余 token 不仅浪费计算，还可能引入噪声
应用场景清晰（机器人视觉、边缘计算、仓储监控）

局限性 / 可改进方向¶

这是一篇 workshop 论文，实验规模非常有限 — 仅在小规模上做了初步测试，缺少系统性基准对比
核心超参数 \(\alpha\) 和 K 的选择尚未充分研究
未与其他 token 压缩方法（Token Merging、SparseVLM、LV-Prune）做直接对比
仅验证了单图场景，多图/视频/多轮对话场景未涉及
当 CLIP 文本编码器与 ViT 不在同一嵌入空间时，模态间相关性分数的有效性存疑

评分¶

新颖性：⭐⭐⭐ — 思路直观但有效，融合两个信号的设计合理
技术深度：⭐⭐ — Workshop 论文，方法描述详细但实验不够深入
实验充分度：⭐⭐ — 仅初步测试，缺乏系统性评估和对比
实用价值：⭐⭐⭐ — 即插即用设计很有工程吸引力，但需验证规模化效果