跳转至

Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models

日期: 2026-03-16
arXiv: 2603.16001
代码: GitHub
领域: 多模态/VLM / 模型压缩
关键词: 权重剪枝, 模态不对称, 激活感知, 校准池构建, 视觉冗余

一句话总结

通过解耦文本/视觉通路的剪枝敏感性,发现文本通路高度敏感(必须用文本 token 校准)而视觉通路极度冗余(60% 稀疏度仅掉 0.75%),提出 ATV-Pruning 用全部文本 token + 按层自适应采样少量显著视觉 token 构建校准池,在 9 个多模态基准上超越 SOTA 剪枝方法。

研究背景与动机

  1. 领域现状: LVLM 参数量大、部署困难。权重剪枝(如 Wanda)通过激活感知的重要性评分 \(I_{ij} = |W_{ij}| \cdot \|X_j\|_2\) 实现高效后训练稀疏化。

  2. 现有痛点: 将 LLM 剪枝方法直接用于 LVLM 时,校准数据混合了文本和视觉 token,但不同模态在激活分布和剪枝重要性上差异巨大——t-SNE 显示两种模态激活占据不同聚类区域;文本-only 和视觉-only 校准得到的剪枝 mask IoU 分布很宽。

  3. 核心矛盾: 文本通路对校准源高度敏感(60% 稀疏度下,用视觉校准直接崩塌到 11.1%),视觉通路却极度冗余(60% 稀疏度下任何校准池都保持 99%+ 性能)。统一校准池稀释了对文本通路至关重要的语言信号。

  4. 核心 idea: 不对称构建校准池——保留全部文本 token(保护敏感的文本通路),仅按层自适应采样少量高 saliency 视觉 token(补充视觉特有参数信息)。

方法详解

整体框架

ATV-Pruning 基于 Wanda 框架,核心改进在校准池构建: - 输入:LVLM + 校准数据集 - 对每个 Transformer block:构建 \(\mathcal{S}_{cal} = \mathcal{T} \cup \mathcal{V}_{sub}\)(全部文本 + 子集视觉) - 用 \(\mathcal{S}_{cal}\) 计算激活范数 \(\|X_j\|_2\),进而得到权重重要性 \(I_{ij}\) - 按重要性剪枝到目标稀疏度

关键设计

  1. 模态解耦敏感性分析(MoT Probe):

    • 做什么:定量验证文本和视觉通路对不同校准源的敏感度差异
    • 核心思路:用 Mixture-of-Transformer 分析探针将共享权重复制为文本/视觉两条通路,独立施加不同校准池的剪枝 mask,测量各通路的性能变化
    • 关键发现:文本通路用文本校准在 60% 稀疏度保持 84.65%,用视觉校准崩塌到 50.92%;视觉通路用任何校准都保持 99%+
  2. Block-Adaptive Visual Selection:

    • 做什么:在每个 Transformer block 自适应选择最有信息量的视觉 token
    • 核心思路:用"视觉漂移"(visual drift)作为显著性代理——cosine distance \(s_v = 1 - \cos(X_{in,v}, X_{out,v})\),漂移大的 token 说明被该 block 强烈处理
    • 预算分配:\(K = \lfloor \alpha \cdot \bar{s} \cdot n_{text} \rfloor\)——视觉活跃的 block 分配更多视觉 token 预算
    • 设计动机:早期层视觉漂移小(不需要太多视觉 token),中后期层漂移大(需更多),自然实现了按层自适应
  3. 不对称校准池构建:

    • 做什么:非等权地整合两种模态的校准信号
    • 核心思路:全部文本 token(保护主导的文本通路) + TopK 显著视觉 token(补充视觉特有的参数信息)
    • 与 TAMP 的区别:TAMP 在共享选择过程中混合两种模态,启发式且开销大;本方法基于模态解耦分析的理论支撑,策略更简洁

实验关键数据

敏感性分析 (LLaVA-NeXT, 60% sparsity)

通路 校准源 MMB SQA_img VizWiz 保留率
文本 文本 52.15 61.58 56.30 84.65%
文本 视觉 41.58 11.11 46.11 50.92%
文本 混合 44.76 35.85 48.41 64.97%
视觉 文本 71.05 73.67 58.32 100.05%
视觉 视觉 70.53 73.08 57.81 99.25%
视觉 混合 70.88 73.38 57.85 99.57%

主实验对比 (50% sparsity)

方法 MMB SQA VizWiz POPE GQA 平均
Dense 72.16 73.28 57.65 86.72 62.07 -
Wanda 63.75 65.96 57.32 84.45 59.48 -
TAMP 64.60 69.51 57.54 84.84 59.77 -
ATV-Pruning 67.18 72.64 58.02 85.47 60.49 -

亮点与洞察

  • 模态不对称是被忽视的关键: 视觉通路的权重级冗余(区别于 token 级冗余)说明 LVLM 的视觉处理参数严重过参数化,可能因为预训练 ViT 编码器已经完成了大部分视觉抽象
  • 简洁而有效: 整个方法只是改变了 Wanda 的校准 token 选择策略,无需额外权重更新或架构修改,非常实用
  • Visual drift 作为 saliency proxy: 可以推广到其他需要选择"重要 token"的场景(如 token pruning、KV cache eviction)

局限性 / 可改进方向

  • 仅在非结构化稀疏上验证,结构化剪枝(对硬件加速更友好)的不对称性是否同样成立?
  • 超参数 \(\alpha\) 需要手动调节,不同模型/任务可能最优值不同
  • 仅在 LLaVA 系列模型验证,对 Qwen2-VL 等其他架构的泛化性待验证
  • 50% 稀疏度下性能仍有 5-7% 下降,高稀疏度场景仍需更好方案

评分

  • 新颖性: ⭐⭐⭐⭐ 模态不对称敏感性分析是新洞察,方法本身是增量改进
  • 实验充分度: ⭐⭐⭐⭐⭐ MoT 解耦实验设计精巧,9 个基准覆盖全面
  • 写作质量: ⭐⭐⭐⭐⭐ 问题→分析→方法的逻辑链非常清晰
  • 价值: ⭐⭐⭐⭐ 对 LVLM 剪枝实务有直接指导意义