AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding¶

会议: CVPR 2026
arXiv: 2604.08077
代码: 无
领域: 视频理解 / 高效推理
关键词: long video, adaptive sparsity, Video-LLM, efficient inference, 3D cube

一句话总结¶

提出 AdaSpark，通过 3D 时空 cube 分区和两个协同的自适应稀疏机制（cube 级注意力选择 + token 级 FFN 选择），将长视频处理 FLOPs 降低最多 57% 同时保持性能。

长视频可产生数十万甚至百万级 token 序列，标准 Video-LLM 的二次注意力复杂度和 FFN 激活成本使其不可行。现有效率方法存在两大缺陷：(1) 帧采样/token 剪枝等不可逆信息丢弃损害细粒度感知；(2) 局部注意力等刚性预定义模式限制长程时序建模。

预备分析发现两个关键现象：(1) 视频注意力具有高内在稀疏性，少量 token 集中了大部分注意力概率，且不同层所需 token 数差异显著；(2) FFN 层对视觉 token 表现出"计算惰性"——文本 token 经 FFN 后变换显著（高方差），而视觉 token 变化稳定。

将视频 token 分区为 3D 时空 cube (h×w×t)，在 attention 层和 FFN 层分别实施基于熵的自适应稀疏计算。

自适应 Cube 选择注意力 (AdaS-Attn)：每个查询 token 计算与所有前序 cube 的相关性分数（与 cube 均值 key \(\bar{k}_j\) 的相似度），然后用 Top-p（nucleus）选择确定注意的 cube 集合：\(P_i = \text{Softmax}([q \cdot \bar{k}_1/\sqrt{d_k}, ..., q \cdot \bar{k}_{i-1}/\sqrt{d_k}]^T)\)，\(\mathcal{S}_i = \{j | p_j \in \text{Top-p}(P_i, p)\}\)。高熵分布（注意力分散）→ 选择更多 cube；低熵分布（注意力集中）→ 仅选择少量 cube。始终保持对自身 cube 的全注意力。
自适应 Token 选择 FFN (AdaS-FFN)：基于 token L2 范数估计重要性，同样用 Top-p 选择确定通过 FFN 的 token。被跳过的 token 通过均值补偿（活跃 token FFN 变换的均值）更新，避免完全不更新。文本 token 始终密集通过 FFN。
基于熵的 Top-p 选择：统一用于 AdaS-Attn 和 AdaS-FFN。自适应稀疏度基于输入复杂度调整计算资源分配——信息密度高时分配更多计算，信息稀疏时大幅跳过。

在 Qwen2.5-VL 基础上应用稀疏策略，通过少量微调适配。稀疏阈值 p 统一控制两个模块的计算预算。

基准	AdaSpark	Dense Baseline	FLOPs 降低
MLVU Dev	可比性能	baseline	最高 57%
VideoMME	可比性能	baseline	最高 57%
VideoNIAH (超长视频)	可比性能	baseline	显著

FLOPs 降低 57% 的同时在多个基准上保持可比性能
Top-p 选择比固定稀疏比例更好——不同层和不同输入需要不同稀疏度
均值补偿对保持被跳过 token 的信息流至关重要
cube 分区的语义同质性是稀疏选择准确性的基础
AdaS-FFN 中被跳过的 token 通过 \(y_k = x_k + \bar{m}_i\) 更新，\(\bar{m}_i = \frac{1}{|\mathcal{M}_i|}\sum_{j \in \mathcal{M}_i} FFN(x_j)\)
预备分析发现 FFN 对视觉 token 表现出"计算惰性"：L2-norm 比值方差远低于文本 token
在 Qwen2.5-VL 基础上应用稀疏策略，通过少量微调适配