跳转至

AgilePruner: Adaptive Visual Token Pruning in Large Vision-Language Models

日期: 2026-03-01
arXiv: 2603.01236
代码: 项目页面
领域: 多模态VLM / 模型效率
关键词: visual token pruning, LVLM, attention-based, diversity-based, hallucination

一句话总结

AgilePruner 系统性地用 effective rank 和注意力熵分析了注意力 vs 多样性两类视觉 token 剪枝方法的优劣,发现多样性方法保留的多样性被高估且与幻觉相关,进而提出图像感知自适应剪枝机制——简单图像用注意力策略、复杂图像用多样性策略,在标准和幻觉 benchmark 上均取得可靠提升。

研究背景与动机

  1. 领域现状:大型视觉语言模型(LVLMs)的视觉 token 数量巨大(如 576 个 patch token),计算开销显著。视觉 token 剪枝是主流提速方案,分为两类:注意力驱动(保留 attention score 高的 token)和多样性驱动(保留特征多样性)。
  2. 现有痛点:两类方法各有短板但缺乏深入对比分析——注意力方法可能丢失分散的视觉信息,多样性方法可能保留过多噪声特征。更关键的是,没人量化过"多样性方法实际保留了多少多样性"。
  3. 核心矛盾:简单图像的关键信息集中在少数区域(适合注意力剪枝),复杂图像的信息分布广泛(适合多样性剪枝)。固定策略无法适配不同复杂度的输入。
  4. 切入角度:用 effective rank(衡量特征矩阵秩/多样性的标量指标)和注意力熵定量分析两类方法的行为
  5. 核心 idea根据图像复杂度自适应选择剪枝策略——简单图像偏注意力、复杂图像偏多样性,融合两类方法的优势

方法详解

整体框架

输入图像经视觉编码器得到 token 后,AgilePruner 计算图像复杂度指标(基于注意力熵/erank),自适应调整注意力权重与多样性权重的混合比例,然后执行 Top-K 剪枝保留最重要的 token。

关键设计

  1. Effective Rank 分析

    • 做什么:定量测量剪枝后 token 集合的实际特征多样性
    • 核心发现:多数多样性剪枝方法保留的 erank 远低于预期——它们声称保留多样性,但实际保留的特征空间高度冗余
    • 更关键:在 CHAIR 幻觉评估上,高 erank(高多样性)与更高的幻觉频率正相关——多样性保留的"噪声信息"可能诱导幻觉
  2. 注意力熵作为图像复杂度代理

    • 做什么:判断输入图像是"简单"(信息集中)还是"复杂"(信息分散)
    • 核心思路:注意力熵低 → 模型集中关注少数区域 → 简单图像 → 用注意力方法更优;注意力熵高 → 注意力分散 → 复杂图像 → 多样性方法更优
  3. 自适应混合剪枝

    • 做什么:根据图像复杂度自动调整注意力得分和多样性得分的权重
    • 核心思路:综合得分 \(s_i = \alpha \cdot s_i^{\text{attn}} + (1-\alpha) \cdot s_i^{\text{div}}\),其中 \(\alpha\) 由注意力熵动态决定
    • 设计动机:简单的自适应机制就能稳定胜过固定策略

训练策略

  • 无需训练:直接应用于现有 LVLM 推理流程

实验关键数据

主实验

方法 VQAv2 GQA CHAIR↓ (幻觉) 保留 token 比例
无剪枝(Full) 基准 基准 基准 100%
纯注意力剪枝 低幻觉 25%
纯多样性剪枝 较好 高幻觉 25%
AgilePruner 最优 最优 低幻觉 25%

消融实验

配置 效果 说明
固定 α=1(纯注意力) 简单图像好,复杂差 无自适应
固定 α=0(纯多样性) 复杂图像好,幻觉高 多样性陷阱
自适应 α 两类均好 AgilePruner

关键发现

  • 多样性剪枝方法的 erank 分析揭示了"多样性幻觉"——保留的 token 看似多样但实际在特征空间中高度冗余
  • 多样性与幻觉的正相关是重要发现:过度追求多样性反而引入噪声,导致模型产生更多不存在于图像中的描述
  • 自适应机制即使极其简单(线性混合)也能稳定提升,说明问题的关键不在复杂算法而在"识别何时用什么策略"

亮点与洞察

  • "多样性不等于有用信息"的洞察:用 erank 量化揭穿了多样性方法的"假多样性",这个分析框架可应用到其他 token selection 场景
  • 幻觉的新归因:将 LVLM 幻觉与 token 剪枝策略建立定量联系,提供了从 token 选择角度减少幻觉的新思路
  • 极简有效的自适应:不需要复杂的路由网络,简单的熵阈值就够

局限性 / 可改进方向

  • 自适应机制偏简单,更精细的图像区域级自适应可能进一步提升
  • 只在 LVLM 上验证,未扩展到纯视觉任务
  • 幻觉与多样性的因果关系尚需更严谨的验证(不排除混淆因子)

相关工作与启发

  • vs FastV: FastV 用注意力方法剪枝,AgilePruner 指出其在复杂图像上的局限并自适应补充多样性
  • vs LLaVA-PruMerge: 混合策略方法,但未做图像感知的自适应调整

评分

  • 新颖性: ⭐⭐⭐⭐ erank 分析和多样性-幻觉关联是有价值的发现
  • 实验充分度: ⭐⭐⭐⭐ 标准+幻觉 benchmark 双覆盖
  • 写作质量: ⭐⭐⭐⭐ 分析驱动的方法论清晰
  • 价值: ⭐⭐⭐⭐ 对 LVLM 效率和幻觉研究都有启发