VideoNSA: Native Sparse Attention Scales Video Understanding¶
一句话总结¶
本文提出 VideoNSA,将 Native Sparse Attention(NSA)引入视频语言模型,通过压缩、选择和滑动窗口三分支动态门控的混合稀疏注意力机制,在仅使用 3.6% 注意力预算的条件下实现 128K token 的视频理解,在长视频理解、时序推理和空间理解任务上全面超越 token 压缩和无训练稀疏注意力基线。
背景与动机¶
-
视频理解受限于上下文长度:现有多模态大语言模型(MLLM)在处理长视频时受限于上下文窗口,往往遗漏关键转折帧,难以维持长时间尺度上的一致性。例如足球比赛中决定胜负的瞬间仅持续数秒,但整场比赛长达 90 分钟。
-
Token 压缩方法存在不可逆信息损失:现有 token 压缩方法(FastV、VScan、VisionZip 等)虽能减少冗余,但在复杂推理任务上性能显著下降,压缩策略限制了感知和推理能力的泛化性。
-
无训练稀疏注意力缺乏硬件对齐:现有训练无关的稀疏注意力方法(Tri-Shape、MInference 等)通常不与硬件对齐,施加静态邻接矩阵,限制了信息流的灵活性,且无法提升训练效率。
-
视频 token 具有高度时间冗余性:连续视频帧之间存在大量冗余,适合使用稀疏注意力机制;但视频的复杂性(时空依赖)使得 LLM 中已有的稀疏注意力方法不能直接适用于视频场景。
-
NSA 在 LLM 中已被验证有效:Native Sparse Attention 在纯文本长上下文建模中已展现出可学习的、硬件感知的稀疏注意力优势,但尚未被应用于视频多模态场景。
-
增加采样帧数可提升准确率但代价高昂:直觉上增加视频帧采样能提高精度,但额外 token 带来的计算复杂度呈二次增长,迫切需要高效的注意力机制来突破这一限制。
方法详解¶
整体架构¶
VideoNSA 基于 Qwen2.5-VL-7B 构建,在 LLM 解码器的每一层采用混合注意力机制:对视频 token 使用 NSA 稀疏注意力,对文本 token 保留标准 GQA(Grouped Query Attention),从而兼顾效率与指令跟随能力。
三分支稀疏注意力¶
NSA 的核心是将每个 query 的注意力分配到三个互补分支,通过可学习门控 \(g_t^c\) 动态加权:
-
压缩分支(CMP):将连续 token 块通过可学习 MLP 聚合为粗粒度的块级表示,捕获全局语义。块大小设为每帧 token 数(64),通过帧内均值池化获得块表示。
-
选择分支(SLC):计算每个 KV 块的重要性分数,保留 top-n 个最显著的块,保持细粒度的关键信息。
-
滑动窗口分支(SWA):保留最近 \(w\) 个 KV 对(\(w=256\)),确保局部时间覆盖。
门控 \(g_t^c\) 由两层 MLP + Sigmoid 实现,实现数据依赖的动态路由。
混合注意力设计¶
在每一层 \(l\),输入 token 按位置 ID 分为视频 token \(\mathbf{X}_\mathcal{V}\) 和文本 token \(\mathbf{X}_\mathcal{T}\): - 视频 token → NSA 三分支稀疏注意力 - 文本 token → 标准 GQA(28 个 query head,4 个共享 KV head) - 最终输出为两部分拼接:\(\mathbf{o}^{(l)} = [\mathbf{o}_\mathcal{V}^{(l)}; \mathbf{o}_\mathcal{T}^{(l)}]\)
训练策略¶
- 数据:从 LLaVA-Video-178K 中筛选 350–550 帧视频,构建 216K 问答对子集
- 约束:每帧最大 50,176 像素,单实例最大上下文 36K token
- 超参数:块大小 \(s=64\),块数 \(b=32\),滑动窗口 \(w=256\)
- 端到端训练,总计 4600 H100 GPU 小时
- 使用 SWIFT 框架,适配 FLA 的 NSA 实现
实验结果¶
主实验:多任务全面评估¶
| 模型 | LongVideoBench | MLVU_test | TimeScope | LongTimeScope | Tomato | VSIBench |
|---|---|---|---|---|---|---|
| Qwen2.5-VL-7B (基线) | 58.7 | 51.2 | 81.0 | 40.7 | 22.6 | 29.7 |
| + FastV (token压缩) | 57.3 | 41.8 | 46.5 | 35.6 | 21.6 | 32.0 |
| + VisionZip (token压缩) | 52.4 | 33.1 | 43.5 | 40.4 | 23.6 | 32.1 |
| + MInference (稀疏注意力) | 59.2 | 49.2 | 82.7 | 44.4 | 23.0 | 36.5 |
| + XAttention (稀疏注意力) | 59.1 | 50.2 | 83.1 | 41.1 | 21.4 | 36.6 |
| VideoNSA | 60.0 | 51.8 | 83.7 | 44.4 | 26.5 | 36.1 |
关键发现: - 稀疏注意力方法整体优于 token 压缩方法 - VideoNSA 在时序推理(Tomato +3.9)和长视频理解上优势明显 - 在空间理解(VSIBench)上与最强稀疏基线持平,显著超越压缩方法
消融实验:分支组合分析¶
| CMP | SLC | SWD | LongVideoBench | MLVU | TimeScope | LongTimeScope | Tomato | VSIBench |
|---|---|---|---|---|---|---|---|---|
| ✓ | 48.1 | 43.9 | 41.5 | 25.1 | 23.3 | 29.2 | ||
| ✓ | 48.4 | 47.7 | 63.7 | 37.1 | 24.0 | 27.6 | ||
| ✓ | 49.1 | 40.2 | 59.3 | 29.8 | 24.0 | 29.8 | ||
| ✓ | ✓ | ✓ | 60.0 | 51.8 | 83.7 | 44.4 | 26.5 | 36.1 |
三分支组合显著优于任何单分支或双分支组合,证明了动态门控整合三分支的必要性。
缩放分析六大发现¶
- 稀疏权重可迁移至稠密注意力:Dense-NSA(使用 VideoNSA 权重但用稠密注意力推理)在多数任务上超越基线,说明稀疏训练提供了有效的注意力归纳偏置
- 可靠扩展至 128K token:超越训练长度(36K)后性能持续提升
- 最优注意力分配高度任务依赖:LongVideoBench 偏好更多每帧 token,Tomato 偏好更高帧率
- 门控分布随层演化:压缩分支在所有层保持主导,选择和滑动窗口分支在深层逐渐减弱
- 压缩分支是效率瓶颈:随上下文增长,压缩分支的推理延迟占据主导
- 可学习稀疏注意力诱导动态 attention sink:选择分支几乎无 sink,压缩分支 sink 最多但被门控机制有效抵消,整体 sink 比率仅 0.3%
亮点与创新¶
- 首个可学习+硬件感知的视频稀疏注意力:不同于静态稀疏模式,VideoNSA 通过端到端训练实现数据依赖的稀疏连接
- 混合注意力设计精妙:视频用稀疏、文本用稠密,兼顾效率与指令跟随
- 仅 3.6% 注意力预算即达最优:极致的计算效率
- 系统性的缩放分析:六大发现深入揭示了稀疏注意力在视频理解中的行为特性
局限性¶
- 训练数据质量有限(LLaVA-Video-178K 子集),SFT 后在部分基准上反而略有下降
- 压缩分支仍是推理瓶颈,kernel 和内存效率有待优化
- 仅在 7B 级别模型上验证,缺乏更大规模模型的实验
- 块大小固定为每帧 token 数,未探索自适应块划分策略
相关工作对比¶
vs. MInference (Jiang et al., 2024)¶
MInference 是无训练的稀疏注意力方法,使用预定义的稀疏模式(A-shape, Vertical-Slash 等),不需要额外训练。VideoNSA 通过端到端训练学习数据依赖的稀疏模式,在 Tomato(26.5 vs 23.0)和 VSIBench(36.1 vs 36.5 持平)上表现更优,代价是 4600 H100 GPU 小时的训练成本。
vs. FastV / VisionZip(Token 压缩方法)¶
Token 压缩方法直接丢弃或合并 token,导致不可逆的信息损失。FastV 在 TimeScope 上仅 46.5(vs VideoNSA 83.7),VisionZip 在 MLVU 上仅 33.1(vs 51.8)。VideoNSA 保留所有 token 但通过稀疏注意力聚焦关键依赖,在复杂推理任务上优势巨大。
vs. XAttention (Xu et al., 2025)¶
XAttention 也是无训练稀疏注意力,使用与 VideoNSA 相同的配置但不训练。VideoNSA 在 LongTimeScope(44.4 vs 41.1)和 Tomato(26.5 vs 21.4)上均显著领先,说明端到端训练对学习有效的稀疏模式至关重要。
评分¶
- ⭐⭐⭐⭐ 新颖性:首次将可学习稀疏注意力系统性引入视频理解,混合注意力设计独到
- ⭐⭐⭐⭐ 技术质量:实验全面,六大发现分析深入透彻,消融实验充分
- ⭐⭐⭐⭐ 实用性:直接适用于现有 VLM 架构,代码和模型已开源
- ⭐⭐⭐ 写作质量:结构清晰但部分符号定义分散,Figure 描述可更精炼