AgilePruner: Adaptive Visual Token Pruning in Large Vision-Language Models¶

日期: 2026-03-01
arXiv: 2603.01236
代码: 项目页面
领域: 多模态VLM / 模型效率
关键词: visual token pruning, LVLM, attention-based, diversity-based, hallucination

一句话总结¶

AgilePruner 系统性地用 effective rank 和注意力熵分析了注意力 vs 多样性两类视觉 token 剪枝方法的优劣，发现多样性方法保留的多样性被高估且与幻觉相关，进而提出图像感知自适应剪枝机制——简单图像用注意力策略、复杂图像用多样性策略，在标准和幻觉 benchmark 上均取得可靠提升。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLMs）的视觉 token 数量巨大（如 576 个 patch token），计算开销显著。视觉 token 剪枝是主流提速方案，分为两类：注意力驱动（保留 attention score 高的 token）和多样性驱动（保留特征多样性）。
现有痛点：两类方法各有短板但缺乏深入对比分析——注意力方法可能丢失分散的视觉信息，多样性方法可能保留过多噪声特征。更关键的是，没人量化过"多样性方法实际保留了多少多样性"。
核心矛盾：简单图像的关键信息集中在少数区域（适合注意力剪枝），复杂图像的信息分布广泛（适合多样性剪枝）。固定策略无法适配不同复杂度的输入。
切入角度：用 effective rank（衡量特征矩阵秩/多样性的标量指标）和注意力熵定量分析两类方法的行为
核心 idea：根据图像复杂度自适应选择剪枝策略——简单图像偏注意力、复杂图像偏多样性，融合两类方法的优势

方法详解¶

整体框架¶

输入图像经视觉编码器得到 token 后，AgilePruner 计算图像复杂度指标（基于注意力熵/erank），自适应调整注意力权重与多样性权重的混合比例，然后执行 Top-K 剪枝保留最重要的 token。

关键设计¶

Effective Rank 分析
- 做什么：定量测量剪枝后 token 集合的实际特征多样性
- 核心发现：多数多样性剪枝方法保留的 erank 远低于预期——它们声称保留多样性，但实际保留的特征空间高度冗余
- 更关键：在 CHAIR 幻觉评估上，高 erank（高多样性）与更高的幻觉频率正相关——多样性保留的"噪声信息"可能诱导幻觉
注意力熵作为图像复杂度代理
- 做什么：判断输入图像是"简单"（信息集中）还是"复杂"（信息分散）
- 核心思路：注意力熵低 → 模型集中关注少数区域 → 简单图像 → 用注意力方法更优；注意力熵高 → 注意力分散 → 复杂图像 → 多样性方法更优
自适应混合剪枝
- 做什么：根据图像复杂度自动调整注意力得分和多样性得分的权重
- 核心思路：综合得分 \(s_i = \alpha \cdot s_i^{\text{attn}} + (1-\alpha) \cdot s_i^{\text{div}}\)，其中 \(\alpha\) 由注意力熵动态决定
- 设计动机：简单的自适应机制就能稳定胜过固定策略

训练策略¶

无需训练：直接应用于现有 LVLM 推理流程

实验关键数据¶

主实验¶

方法	VQAv2	GQA	CHAIR↓ (幻觉)	保留 token 比例
无剪枝（Full）	基准	基准	基准	100%
纯注意力剪枝	好	好	低幻觉	25%
纯多样性剪枝	中	较好	高幻觉	25%
AgilePruner	最优	最优	低幻觉	25%

消融实验¶

配置	效果	说明
固定 α=1（纯注意力）	简单图像好，复杂差	无自适应
固定 α=0（纯多样性）	复杂图像好，幻觉高	多样性陷阱
自适应 α	两类均好	AgilePruner

关键发现¶

多样性剪枝方法的 erank 分析揭示了"多样性幻觉"——保留的 token 看似多样但实际在特征空间中高度冗余
多样性与幻觉的正相关是重要发现：过度追求多样性反而引入噪声，导致模型产生更多不存在于图像中的描述
自适应机制即使极其简单（线性混合）也能稳定提升，说明问题的关键不在复杂算法而在"识别何时用什么策略"

亮点与洞察¶

"多样性不等于有用信息"的洞察：用 erank 量化揭穿了多样性方法的"假多样性"，这个分析框架可应用到其他 token selection 场景
幻觉的新归因：将 LVLM 幻觉与 token 剪枝策略建立定量联系，提供了从 token 选择角度减少幻觉的新思路
极简有效的自适应：不需要复杂的路由网络，简单的熵阈值就够

局限性 / 可改进方向¶

自适应机制偏简单，更精细的图像区域级自适应可能进一步提升
只在 LVLM 上验证，未扩展到纯视觉任务
幻觉与多样性的因果关系尚需更严谨的验证（不排除混淆因子）

评分¶

新颖性: ⭐⭐⭐⭐ erank 分析和多样性-幻觉关联是有价值的发现
实验充分度: ⭐⭐⭐⭐ 标准+幻觉 benchmark 双覆盖
写作质量: ⭐⭐⭐⭐ 分析驱动的方法论清晰
价值: ⭐⭐⭐⭐ 对 LVLM 效率和幻觉研究都有启发