跳转至

Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

会议: ICLR 2026
arXiv: 2504.18579
领域: MLLM效率/稀疏注意力
关键词: token稀疏, RL后训练, GRPO, 效率-性能联合奖励, 多预算探索

一句话总结

提出Sparsity Forcing——基于GRPO的RL后训练框架,将带稀疏注意力的MLLM作为策略模型、原始MLLM作为参考模型,通过多预算rollout探索不同token保留阈值\(p\),以效率(token减少率)+性能(答案正确性)为联合奖励做组内对比优化,将Qwen2/2.5-VL的token减少率从20%提升至75%且精度损失极小,实现内存降3×、解码加速3.3×。

研究背景与动机

MLLM推理瓶颈:处理高分辨率图像或长视频时,视觉编码器产生海量visual token,严重制约生成效率(如16k+ token的视频输入)。

天然稀疏性利用已到上限:FastV/ZipVL等方法利用注意力图的固有稀疏性裁剪冗余token,但仅能安全减少约50%,进一步压缩(如保留20%或10%)就会导致精度急剧下降。

可训练稀疏注意力局限:MOBA/NSA等方法预定义刚性稀疏模式,忽略输入和层的动态性,且需要从头训练,在MLLM后训练场景下不实用。

注意力锐化正则的代理目标问题\(L_\infty\)/熵最小化等正则项优化的是注意力分布锐度的代理目标,不直接控制token预算,学到的锐度不能可靠地转化为端到端token节省。

SFT的训练-推理不匹配:现有SFT方法在teacher forcing下强制稀疏作用于ground-truth token而非生成输出,与推理时的自回归解码不一致,导致实际效率收益有限。

核心动机:需要一个推理对齐(inference-aligned)的后训练方法,直接以效率-性能为端到端目标而非代理,让模型主动学会"哪些token可以安全丢弃"。

方法详解

关键设计一:策略-参考双模型架构

  • 功能:将带top-\(p\)稀疏注意力的MLLM(如Qwen2-VL+ZipVL)作为策略模型\(\pi_\theta\),原始标准注意力MLLM(参数冻结)作为参考模型\(\pi_{\text{ref}}\)
  • 核心思路:策略模型在解码时执行稀疏token选择和KV cache裁剪,参考模型通过KL散度\(\mathbb{D}_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\)锚定训练,防止过度偏离原始能力。
  • 设计动机:参考模型稳定学习+限制精度损失,即使在高稀疏率下也保持任务保真度。Top-\(p\)稀疏注意力在每层独立决定保留token数: $\(b = \min\{p \in \mathbb{Z} \mid \sum_{j=1}^{p} a_{\text{sorted}(j)} \geq p \times \ell\}\)$ 其中\(a_j = \sum_{c=1}^{\ell} \mathbf{A}_{c,j}\)为累积注意力分数,\(\ell\)为序列长度。

关键设计二:多预算Rollout探索

  • 功能:对每个视觉-语言query,使用\(N\)个不同的注意力保留阈值\(p_n \sim \mathcal{U}(0,1)\)进行独立rollout,生成\(N\)个答案\(\{\mathbf{o}_1, \dots, \mathbf{o}_N\}\)及对应token比率\(\{\tau_1, \dots, \tau_N\}\)
  • 核心思路:渐进式预算扫描(progressive budget sweep) — 不同\(p\)构成从稀疏到密集的梯度测试:小\(p\)保留少token看是否还能答对,大\(p\)保留多token作为正确性兜底。训练范围设为\(p \in [0.94, 0.975]\),步长0.005。
  • 设计动机:避免手工定义正/负样本对(DPO的痛点),让多预算rollout自然产生对比信号 — 正确且高效的rollout获正优势,错误或低效的获负优势。随训练推进,最小正确预算动态变化,rollout自动适应。

关键设计三:效率-性能联合奖励与GRPO更新

  • 功能:为每个rollout计算联合奖励并通过GRPO的组内归一化优势更新策略。
  • 核心思路:性能奖励\(r_{\text{per}} \in \{0, 1\}\)(答案是否正确)+ 效率奖励\(r_{\text{eff}} = 1 - \tau_i\)(token减少率)。引入组级指示器\(C\): $\(C = \mathbb{1}\{\exists j: \text{Correct}(\mathbf{o}_j) = 1\}\)$ 仅当组内至少一个rollout正确时才计入效率奖励: $\(r_i = r_{\text{per},i} + C \cdot r_{\text{eff},i}\)$ 优势通过组内归一化:\(A_i = (r_i - \text{mean}) / \text{std}\),最终使用GRPO的clip surrogate目标更新: $\(\mathcal{J}(\theta) = \mathbb{E}\left[\min\left(\frac{\pi_\theta(\mathbf{o}_n|\mathbf{x})}{\pi_{\theta_{\text{old}}}(\mathbf{o}_n|\mathbf{x})} A_i,\; \kappa(\cdot) A_i\right) - \beta \mathbb{D}_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\right]\)$
  • 设计动机:(1) 组级指示器\(C\)防止全错时效率信号推动极端稀疏(退化为空回答);(2) 联合奖励让效率和性能成为端到端目标而非代理;(3) GRPO的on-policy特性使正/负对比随训练动态更新,避免DPO的预定义偏好对陈旧问题。

关键设计四:推理一致性

  • 功能:训练和推理使用完全相同的稀疏注意力pipeline — 同一token裁剪策略+KV cache管理。
  • 核心思路:推理时固定\(p=0.975\)(训练范围上界),保证精度的同时获得训练中学到的效率提升。模型在训练中已学会在\(p=0.975\)下也能产生更稀疏的注意力分布。
  • 设计动机:SFT方法训练时teacher forcing、推理时autoregressive→pipeline不一致→效率收益不可靠。RL方法训练时就用autoregressive rollout→deployment-aligned。

实验结果

表1:图像基准(7个任务)对比

模型 方法 Token比率↓ MME MMBench MMStar ChartQA TextVQA OCRBench MMMU-Pro 均值
Qwen2.5-VL-7B Full 100% 2303 83.9 62.2 84.0 82.9 845 36.7 73.8
FastV 52.1% 2115 81.9 61.2 80.2 79.6 760 34.5 69.9
ZipVL 79.5% 2290 83.9 60.4 82.0 82.6 837 36.2 72.9
Sparsity Forcing 24.7% 2286 84.1 62.5 83.1 82.6 847 36.7 73.6

表2:增强稀疏性方法对比(Qwen2.5-VL-7B)

方法 类型 Token比率↓ MME MMStar ChartQA VideoMME 均值
Full - 100% 2303 62.2 84.0 64.5 73.2
MOBA 可训练稀疏注意力 25% 1906 58.6 77.3 62.6 66.6
Sharpness Loss 注意力锐化正则 25% 1965 59.6 77.0 63.7 67.6
ZipVL (后训练) 稀疏注意力微调 61.7% 2264 62.0 78.9 64.2 71.5
Sparsity Forcing RL后训练 26.4% 2286 62.5 83.1 64.0 72.8

表3:稀疏注意力类型消融(Qwen2.5-VL-7B)

稀疏注意力 Token比率 MME VideoMME
Top-\(k\) 25% 2160 60.2
Threshold 37.8% 2218 61.6
Top-\(p\) 24.1% 2286 64.0

关键发现

  1. 稀疏性可被RL强化3.75×:ZipVL固有稀疏仅能从100%→~80%(减20%),Sparsity Forcing训练后可安全减至~25%(减75%),说明MLLM的稀疏性潜力远未被利用。

  2. 组级指示器\(C\)是防崩关键:若不加\(C\),全错组的效率信号仍在推动极端稀疏→模型退化为输出空答案。\(C\)确保仅在"至少有人答对"时才奖励效率。

  3. Top-\(p\)优于Top-\(k\)和Threshold:Top-\(p\)作为在线策略可根据每层注意力分布自适应调整保留token数,而Top-\(k\)和Threshold是离线策略→不适应输入变化→同样token比率下精度差3-4分。

  4. 逐层稀疏性差异巨大:训练后不同层的token保留率差异显著——浅层保留多(需全局上下文),深层保留少(已聚焦关键token),验证了动态逐层策略的必要性。

  5. 长序列下稀疏性自适应增长:输入从4k增至20k token时,保留比率从~35%降至~20%,精度几乎不变→序列越长冗余越多→方法自然扩展。

亮点

  • 范式转变 "从利用到强化":以往方法被动利用固有稀疏性→Sparsity Forcing主动训练更稀疏→本质区别在于让模型学会重组注意力分布。
  • 推理一致性设计:训练loop完全mirror推理pipeline(autoregressive + sparse KV cache),不存在SFT的teacher forcing gap。
  • 实际部署价值:3×内存降低 + 3.3×解码加速→长视频处理从不可行变为可行→直接影响MLLM部署。
  • 轻量后训练:883 GPU hours(8×A100)训练Qwen2.5-VL-7B→不需从头训练→在已有强模型上增效。

局限性

  1. 训练开销仍不轻:883 GPU hours / 164 GPU hours虽比从头训练少,但多rollout本身增加了训练成本(group size=8意味着每个样本做8次推理)。
  2. 仅验证QwenVL和LLaVA系列:未在更多架构(如InternVL、Gemini等)上验证泛化性,其他MLLM的注意力稀疏特性可能不同。
  3. 推理时需稀疏注意力框架支持:依赖ZipVL等sparse attention实现→不是所有推理引擎都原生支持→部署需额外工程。
  4. visual token为主:主要裁剪视觉token→对纯文本或text-heavy任务的提升有限→OCR类任务的稀疏空间确实更小。

相关工作对比

vs ZipVL (He et al., 2024)

ZipVL是训练无关的稀疏注意力→利用固有稀疏性→top-\(p\)阈值动态选token→但仅能安全减约20%。Sparsity Forcing建立在ZipVL之上→通过RL后训练强化稀疏性→把ZipVL从"利用"升级为"强化"→同一框架下token减少从20%→75%。本质区别:ZipVL不改变模型权重,Sparsity Forcing改变模型注意力分布使其天然更稀疏。

vs MOBA (Lu et al., 2025)

MOBA是可训练稀疏注意力→block-wise attention probing + MoE思路→预定义稀疏模式→需从头训练。在后训练场景对比(表3),MOBA在25% token比率下MME仅1906(vs Sparsity Forcing的2286),性能差距巨大(6.2分均值差距)。原因:MOBA的刚性模式忽略输入和层的动态→不适合后训练微调已有MLLM。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将GRPO应用于MLLM稀疏性强化,联合奖励+多预算探索+推理一致性的组合设计独特
  • 实验充分度: ⭐⭐⭐⭐⭐ 13基准(7图像+6视频)+4个模型+详细消融(稀疏机制/rollout范围/组大小/幻觉鲁棒性)
  • 写作质量: ⭐⭐⭐⭐⭐ 问题分析透彻,从"利用"到"强化"的叙事线清晰,图示有效
  • 实用价值: ⭐⭐⭐⭐⭐ 3×内存+3.3×速度→直接可用于MLLM部署加速,后训练方式降低使用门槛

相关论文