Sparsity Forcing: Reinforcing Token Sparsity of MLLMs¶

会议: ICLR 2026
arXiv: 2504.18579
领域: MLLM效率/稀疏注意力
关键词: token稀疏, RL后训练, GRPO, 效率-性能联合奖励, 多预算探索

一句话总结¶

提出Sparsity Forcing——基于GRPO的RL后训练框架，将带稀疏注意力的MLLM作为策略模型、原始MLLM作为参考模型，通过多预算rollout探索不同token保留阈值$p$，以效率(token减少率)+性能(答案正确性)为联合奖励做组内对比优化，将Qwen2/2.5-VL的token减少率从20%提升至75%且精度损失极小，实现内存降3×、解码加速3.3×。

研究背景与动机¶

MLLM推理瓶颈：处理高分辨率图像或长视频时，视觉编码器产生海量visual token，严重制约生成效率（如16k+ token的视频输入）。

天然稀疏性利用已到上限：FastV/ZipVL等方法利用注意力图的固有稀疏性裁剪冗余token，但仅能安全减少约50%，进一步压缩（如保留20%或10%）就会导致精度急剧下降。

可训练稀疏注意力局限：MOBA/NSA等方法预定义刚性稀疏模式，忽略输入和层的动态性，且需要从头训练，在MLLM后训练场景下不实用。

注意力锐化正则的代理目标问题：$L_\infty$/熵最小化等正则项优化的是注意力分布锐度的代理目标，不直接控制token预算，学到的锐度不能可靠地转化为端到端token节省。

SFT的训练-推理不匹配：现有SFT方法在teacher forcing下强制稀疏作用于ground-truth token而非生成输出，与推理时的自回归解码不一致，导致实际效率收益有限。

核心动机：需要一个推理对齐(inference-aligned)的后训练方法，直接以效率-性能为端到端目标而非代理，让模型主动学会"哪些token可以安全丢弃"。

方法详解¶

关键设计一：策略-参考双模型架构¶

功能：将带top-$p$稀疏注意力的MLLM（如Qwen2-VL+ZipVL）作为策略模型$\pi_\theta$，原始标准注意力MLLM（参数冻结）作为参考模型$\pi_{\text{ref}}$。
核心思路：策略模型在解码时执行稀疏token选择和KV cache裁剪，参考模型通过KL散度$\mathbb{D}_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})$锚定训练，防止过度偏离原始能力。
设计动机：参考模型稳定学习+限制精度损失，即使在高稀疏率下也保持任务保真度。Top-$p$稀疏注意力在每层独立决定保留token数： $$b = \min\{p \in \mathbb{Z} \mid \sum_{j=1}^{p} a_{\text{sorted}(j)} \geq p \times \ell\}$$ 其中$a_j = \sum_{c=1}^{\ell} \mathbf{A}_{c,j}$为累积注意力分数，$\ell$为序列长度。

关键设计二：多预算Rollout探索¶

功能：对每个视觉-语言query，使用$N$个不同的注意力保留阈值$p_n \sim \mathcal{U}(0,1)$进行独立rollout，生成$N$个答案$\{\mathbf{o}_1, \dots, \mathbf{o}_N\}$及对应token比率$\{\tau_1, \dots, \tau_N\}$。
核心思路：渐进式预算扫描(progressive budget sweep) — 不同$p$构成从稀疏到密集的梯度测试：小$p$保留少token看是否还能答对，大$p$保留多token作为正确性兜底。训练范围设为$p \in [0.94, 0.975]$，步长0.005。
设计动机：避免手工定义正/负样本对（DPO的痛点），让多预算rollout自然产生对比信号 — 正确且高效的rollout获正优势，错误或低效的获负优势。随训练推进，最小正确预算动态变化，rollout自动适应。

关键设计三：效率-性能联合奖励与GRPO更新¶

功能：为每个rollout计算联合奖励并通过GRPO的组内归一化优势更新策略。
核心思路：性能奖励$r_{\text{per}} \in \{0, 1\}$（答案是否正确）+ 效率奖励$r_{\text{eff}} = 1 - \tau_i$（token减少率）。引入组级指示器$C$： $$C = \mathbb{1}\{\exists j: \text{Correct}(\mathbf{o}_j) = 1\}$$ 仅当组内至少一个rollout正确时才计入效率奖励： $$r_i = r_{\text{per},i} + C \cdot r_{\text{eff},i}$$ 优势通过组内归一化：$A_i = (r_i - \text{mean}) / \text{std}$，最终使用GRPO的clip surrogate目标更新： $$\mathcal{J}(\theta) = \mathbb{E}\left[\min\left(\frac{\pi_\theta(\mathbf{o}_n|\mathbf{x})}{\pi_{\theta_{\text{old}}}(\mathbf{o}_n|\mathbf{x})} A_i,\; \kappa(\cdot) A_i\right) - \beta \mathbb{D}_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\right]$$
设计动机：(1) 组级指示器$C$防止全错时效率信号推动极端稀疏（退化为空回答）；(2) 联合奖励让效率和性能成为端到端目标而非代理；(3) GRPO的on-policy特性使正/负对比随训练动态更新，避免DPO的预定义偏好对陈旧问题。

关键设计四：推理一致性¶

功能：训练和推理使用完全相同的稀疏注意力pipeline — 同一token裁剪策略+KV cache管理。
核心思路：推理时固定$p=0.975$（训练范围上界），保证精度的同时获得训练中学到的效率提升。模型在训练中已学会在$p=0.975$下也能产生更稀疏的注意力分布。
设计动机：SFT方法训练时teacher forcing、推理时autoregressive→pipeline不一致→效率收益不可靠。RL方法训练时就用autoregressive rollout→deployment-aligned。

实验结果¶

表1：图像基准（7个任务）对比¶

模型	方法	Token比率↓	MME	MMBench	MMStar	ChartQA	TextVQA	OCRBench	MMMU-Pro	均值
Qwen2.5-VL-7B	Full	100%	2303	83.9	62.2	84.0	82.9	845	36.7	73.8
	FastV	52.1%	2115	81.9	61.2	80.2	79.6	760	34.5	69.9
	ZipVL	79.5%	2290	83.9	60.4	82.0	82.6	837	36.2	72.9
	Sparsity Forcing	24.7%	2286	84.1	62.5	83.1	82.6	847	36.7	73.6

表2：增强稀疏性方法对比（Qwen2.5-VL-7B）¶

方法	类型	Token比率↓	MME	MMStar	ChartQA	VideoMME	均值
Full	-	100%	2303	62.2	84.0	64.5	73.2
MOBA	可训练稀疏注意力	25%	1906	58.6	77.3	62.6	66.6
Sharpness Loss	注意力锐化正则	25%	1965	59.6	77.0	63.7	67.6
ZipVL (后训练)	稀疏注意力微调	61.7%	2264	62.0	78.9	64.2	71.5
Sparsity Forcing	RL后训练	26.4%	2286	62.5	83.1	64.0	72.8

表3：稀疏注意力类型消融（Qwen2.5-VL-7B）¶

稀疏注意力	Token比率	MME	VideoMME
Top-$k$	25%	2160	60.2
Threshold	37.8%	2218	61.6
Top-$p$	24.1%	2286	64.0

关键发现¶

稀疏性可被RL强化3.75×：ZipVL固有稀疏仅能从100%→~80%（减20%），Sparsity Forcing训练后可安全减至~25%（减75%），说明MLLM的稀疏性潜力远未被利用。
组级指示器$C$是防崩关键：若不加$C$，全错组的效率信号仍在推动极端稀疏→模型退化为输出空答案。$C$确保仅在"至少有人答对"时才奖励效率。
Top-$p$优于Top-$k$和Threshold：Top-$p$作为在线策略可根据每层注意力分布自适应调整保留token数，而Top-$k$和Threshold是离线策略→不适应输入变化→同样token比率下精度差3-4分。
逐层稀疏性差异巨大：训练后不同层的token保留率差异显著——浅层保留多（需全局上下文），深层保留少（已聚焦关键token），验证了动态逐层策略的必要性。
长序列下稀疏性自适应增长：输入从4k增至20k token时，保留比率从~35%降至~20%，精度几乎不变→序列越长冗余越多→方法自然扩展。

亮点¶

范式转变 "从利用到强化"：以往方法被动利用固有稀疏性→Sparsity Forcing主动训练更稀疏→本质区别在于让模型学会重组注意力分布。
推理一致性设计：训练loop完全mirror推理pipeline（autoregressive + sparse KV cache），不存在SFT的teacher forcing gap。
实际部署价值：3×内存降低 + 3.3×解码加速→长视频处理从不可行变为可行→直接影响MLLM部署。
轻量后训练：883 GPU hours（8×A100）训练Qwen2.5-VL-7B→不需从头训练→在已有强模型上增效。

局限性¶

训练开销仍不轻：883 GPU hours / 164 GPU hours虽比从头训练少，但多rollout本身增加了训练成本（group size=8意味着每个样本做8次推理）。
仅验证QwenVL和LLaVA系列：未在更多架构（如InternVL、Gemini等）上验证泛化性，其他MLLM的注意力稀疏特性可能不同。
推理时需稀疏注意力框架支持：依赖ZipVL等sparse attention实现→不是所有推理引擎都原生支持→部署需额外工程。
visual token为主：主要裁剪视觉token→对纯文本或text-heavy任务的提升有限→OCR类任务的稀疏空间确实更小。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将GRPO应用于MLLM稀疏性强化，联合奖励+多预算探索+推理一致性的组合设计独特
实验充分度: ⭐⭐⭐⭐⭐ 13基准(7图像+6视频)+4个模型+详细消融(稀疏机制/rollout范围/组大小/幻觉鲁棒性)
写作质量: ⭐⭐⭐⭐⭐ 问题分析透彻，从"利用"到"强化"的叙事线清晰，图示有效
实用价值: ⭐⭐⭐⭐⭐ 3×内存+3.3×速度→直接可用于MLLM部署加速，后训练方式降低使用门槛