Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models¶

日期: 2026-03-16
arXiv: 2603.16001
代码: GitHub
领域: 多模态/VLM / 模型压缩
关键词: 权重剪枝, 模态不对称, 激活感知, 校准池构建, 视觉冗余

一句话总结¶

通过解耦文本/视觉通路的剪枝敏感性，发现文本通路高度敏感（必须用文本 token 校准）而视觉通路极度冗余（60% 稀疏度仅掉 0.75%），提出 ATV-Pruning 用全部文本 token + 按层自适应采样少量显著视觉 token 构建校准池，在 9 个多模态基准上超越 SOTA 剪枝方法。

研究背景与动机¶

领域现状: LVLM 参数量大、部署困难。权重剪枝（如 Wanda）通过激活感知的重要性评分 \(I_{ij} = |W_{ij}| \cdot \|X_j\|_2\) 实现高效后训练稀疏化。
现有痛点: 将 LLM 剪枝方法直接用于 LVLM 时，校准数据混合了文本和视觉 token，但不同模态在激活分布和剪枝重要性上差异巨大——t-SNE 显示两种模态激活占据不同聚类区域；文本-only 和视觉-only 校准得到的剪枝 mask IoU 分布很宽。
核心矛盾: 文本通路对校准源高度敏感（60% 稀疏度下，用视觉校准直接崩塌到 11.1%），视觉通路却极度冗余（60% 稀疏度下任何校准池都保持 99%+ 性能）。统一校准池稀释了对文本通路至关重要的语言信号。
核心 idea: 不对称构建校准池——保留全部文本 token（保护敏感的文本通路），仅按层自适应采样少量高 saliency 视觉 token（补充视觉特有参数信息）。

方法详解¶

整体框架¶

ATV-Pruning 基于 Wanda 框架，核心改进在校准池构建： - 输入：LVLM + 校准数据集 - 对每个 Transformer block：构建 \(\mathcal{S}_{cal} = \mathcal{T} \cup \mathcal{V}_{sub}\)（全部文本 + 子集视觉） - 用 \(\mathcal{S}_{cal}\) 计算激活范数 \(\|X_j\|_2\)，进而得到权重重要性 \(I_{ij}\) - 按重要性剪枝到目标稀疏度

关键设计¶

模态解耦敏感性分析（MoT Probe）:
- 做什么：定量验证文本和视觉通路对不同校准源的敏感度差异
- 核心思路：用 Mixture-of-Transformer 分析探针将共享权重复制为文本/视觉两条通路，独立施加不同校准池的剪枝 mask，测量各通路的性能变化
- 关键发现：文本通路用文本校准在 60% 稀疏度保持 84.65%，用视觉校准崩塌到 50.92%；视觉通路用任何校准都保持 99%+
Block-Adaptive Visual Selection:
- 做什么：在每个 Transformer block 自适应选择最有信息量的视觉 token
- 核心思路：用"视觉漂移"（visual drift）作为显著性代理——cosine distance \(s_v = 1 - \cos(X_{in,v}, X_{out,v})\)，漂移大的 token 说明被该 block 强烈处理
- 预算分配：\(K = \lfloor \alpha \cdot \bar{s} \cdot n_{text} \rfloor\)——视觉活跃的 block 分配更多视觉 token 预算
- 设计动机：早期层视觉漂移小（不需要太多视觉 token），中后期层漂移大（需更多），自然实现了按层自适应
不对称校准池构建:
- 做什么：非等权地整合两种模态的校准信号
- 核心思路：全部文本 token（保护主导的文本通路） + TopK 显著视觉 token（补充视觉特有的参数信息）
- 与 TAMP 的区别：TAMP 在共享选择过程中混合两种模态，启发式且开销大；本方法基于模态解耦分析的理论支撑，策略更简洁

实验关键数据¶

敏感性分析 (LLaVA-NeXT, 60% sparsity)¶

通路	校准源	MMB	SQA_img	VizWiz	保留率
文本	文本	52.15	61.58	56.30	84.65%
文本	视觉	41.58	11.11	46.11	50.92%
文本	混合	44.76	35.85	48.41	64.97%
视觉	文本	71.05	73.67	58.32	100.05%
视觉	视觉	70.53	73.08	57.81	99.25%
视觉	混合	70.88	73.38	57.85	99.57%

主实验对比 (50% sparsity)¶

方法	MMB	SQA	VizWiz	POPE	GQA	平均
Dense	72.16	73.28	57.65	86.72	62.07	-
Wanda	63.75	65.96	57.32	84.45	59.48	-
TAMP	64.60	69.51	57.54	84.84	59.77	-
ATV-Pruning	67.18	72.64	58.02	85.47	60.49	-

亮点与洞察¶

模态不对称是被忽视的关键: 视觉通路的权重级冗余（区别于 token 级冗余）说明 LVLM 的视觉处理参数严重过参数化，可能因为预训练 ViT 编码器已经完成了大部分视觉抽象
简洁而有效: 整个方法只是改变了 Wanda 的校准 token 选择策略，无需额外权重更新或架构修改，非常实用
Visual drift 作为 saliency proxy: 可以推广到其他需要选择"重要 token"的场景（如 token pruning、KV cache eviction）

局限性 / 可改进方向¶

仅在非结构化稀疏上验证，结构化剪枝（对硬件加速更友好）的不对称性是否同样成立？
超参数 \(\alpha\) 需要手动调节，不同模型/任务可能最优值不同
仅在 LLaVA 系列模型验证，对 Qwen2-VL 等其他架构的泛化性待验证
50% 稀疏度下性能仍有 5-7% 下降，高稀疏度场景仍需更好方案

评分¶

新颖性: ⭐⭐⭐⭐ 模态不对称敏感性分析是新洞察，方法本身是增量改进
实验充分度: ⭐⭐⭐⭐⭐ MoT 解耦实验设计精巧，9 个基准覆盖全面
写作质量: ⭐⭐⭐⭐⭐ 问题→分析→方法的逻辑链非常清晰
价值: ⭐⭐⭐⭐ 对 LVLM 剪枝实务有直接指导意义