VideoNSA: Native Sparse Attention Scales Video Understanding¶

一句话总结¶

本文提出 VideoNSA，将 Native Sparse Attention（NSA）引入视频语言模型，通过压缩、选择和滑动窗口三分支动态门控的混合稀疏注意力机制，在仅使用 3.6% 注意力预算的条件下实现 128K token 的视频理解，在长视频理解、时序推理和空间理解任务上全面超越 token 压缩和无训练稀疏注意力基线。

背景与动机¶

视频理解受限于上下文长度：现有多模态大语言模型（MLLM）在处理长视频时受限于上下文窗口，往往遗漏关键转折帧，难以维持长时间尺度上的一致性。例如足球比赛中决定胜负的瞬间仅持续数秒，但整场比赛长达 90 分钟。
Token 压缩方法存在不可逆信息损失：现有 token 压缩方法（FastV、VScan、VisionZip 等）虽能减少冗余，但在复杂推理任务上性能显著下降，压缩策略限制了感知和推理能力的泛化性。
无训练稀疏注意力缺乏硬件对齐：现有训练无关的稀疏注意力方法（Tri-Shape、MInference 等）通常不与硬件对齐，施加静态邻接矩阵，限制了信息流的灵活性，且无法提升训练效率。
视频 token 具有高度时间冗余性：连续视频帧之间存在大量冗余，适合使用稀疏注意力机制；但视频的复杂性（时空依赖）使得 LLM 中已有的稀疏注意力方法不能直接适用于视频场景。
NSA 在 LLM 中已被验证有效：Native Sparse Attention 在纯文本长上下文建模中已展现出可学习的、硬件感知的稀疏注意力优势，但尚未被应用于视频多模态场景。
增加采样帧数可提升准确率但代价高昂：直觉上增加视频帧采样能提高精度，但额外 token 带来的计算复杂度呈二次增长，迫切需要高效的注意力机制来突破这一限制。

方法详解¶

整体架构¶

VideoNSA 基于 Qwen2.5-VL-7B 构建，在 LLM 解码器的每一层采用混合注意力机制：对视频 token 使用 NSA 稀疏注意力，对文本 token 保留标准 GQA（Grouped Query Attention），从而兼顾效率与指令跟随能力。

三分支稀疏注意力¶

NSA 的核心是将每个 query 的注意力分配到三个互补分支，通过可学习门控 \(g_t^c\) 动态加权：

\[\mathbf{o}_t = \sum_{c \in \{\text{cmp}, \text{slc}, \text{win}\}} g_t^c \cdot \text{Attn}(q_t, \tilde{\mathbf{K}}_t^c, \tilde{\mathbf{V}}_t^c)\]

压缩分支（CMP）：将连续 token 块通过可学习 MLP 聚合为粗粒度的块级表示，捕获全局语义。块大小设为每帧 token 数（64），通过帧内均值池化获得块表示。
选择分支（SLC）：计算每个 KV 块的重要性分数，保留 top-n 个最显著的块，保持细粒度的关键信息。
滑动窗口分支（SWA）：保留最近 \(w\) 个 KV 对（\(w=256\)），确保局部时间覆盖。

门控 \(g_t^c\) 由两层 MLP + Sigmoid 实现，实现数据依赖的动态路由。

混合注意力设计¶

在每一层 \(l\)，输入 token 按位置 ID 分为视频 token \(\mathbf{X}_\mathcal{V}\) 和文本 token \(\mathbf{X}_\mathcal{T}\)： - 视频 token → NSA 三分支稀疏注意力 - 文本 token → 标准 GQA（28 个 query head，4 个共享 KV head） - 最终输出为两部分拼接：\(\mathbf{o}^{(l)} = [\mathbf{o}_\mathcal{V}^{(l)}; \mathbf{o}_\mathcal{T}^{(l)}]\)

训练策略¶

数据：从 LLaVA-Video-178K 中筛选 350–550 帧视频，构建 216K 问答对子集
约束：每帧最大 50,176 像素，单实例最大上下文 36K token
超参数：块大小 \(s=64\)，块数 \(b=32\)，滑动窗口 \(w=256\)
端到端训练，总计 4600 H100 GPU 小时
使用 SWIFT 框架，适配 FLA 的 NSA 实现

实验结果¶

主实验：多任务全面评估¶

模型	LongVideoBench	MLVU_test	TimeScope	LongTimeScope	Tomato	VSIBench
Qwen2.5-VL-7B (基线)	58.7	51.2	81.0	40.7	22.6	29.7
+ FastV (token压缩)	57.3	41.8	46.5	35.6	21.6	32.0
+ VisionZip (token压缩)	52.4	33.1	43.5	40.4	23.6	32.1
+ MInference (稀疏注意力)	59.2	49.2	82.7	44.4	23.0	36.5
+ XAttention (稀疏注意力)	59.1	50.2	83.1	41.1	21.4	36.6
VideoNSA	60.0	51.8	83.7	44.4	26.5	36.1

关键发现： - 稀疏注意力方法整体优于 token 压缩方法 - VideoNSA 在时序推理（Tomato +3.9）和长视频理解上优势明显 - 在空间理解（VSIBench）上与最强稀疏基线持平，显著超越压缩方法

消融实验：分支组合分析¶

CMP	SLC	SWD	LongVideoBench	MLVU	TimeScope	LongTimeScope	Tomato	VSIBench
✓			48.1	43.9	41.5	25.1	23.3	29.2
	✓		48.4	47.7	63.7	37.1	24.0	27.6
		✓	49.1	40.2	59.3	29.8	24.0	29.8
✓	✓	✓	60.0	51.8	83.7	44.4	26.5	36.1

三分支组合显著优于任何单分支或双分支组合，证明了动态门控整合三分支的必要性。

缩放分析六大发现¶

稀疏权重可迁移至稠密注意力：Dense-NSA（使用 VideoNSA 权重但用稠密注意力推理）在多数任务上超越基线，说明稀疏训练提供了有效的注意力归纳偏置
可靠扩展至 128K token：超越训练长度（36K）后性能持续提升
最优注意力分配高度任务依赖：LongVideoBench 偏好更多每帧 token，Tomato 偏好更高帧率
门控分布随层演化：压缩分支在所有层保持主导，选择和滑动窗口分支在深层逐渐减弱
压缩分支是效率瓶颈：随上下文增长，压缩分支的推理延迟占据主导
可学习稀疏注意力诱导动态 attention sink：选择分支几乎无 sink，压缩分支 sink 最多但被门控机制有效抵消，整体 sink 比率仅 0.3%

亮点与创新¶

首个可学习+硬件感知的视频稀疏注意力：不同于静态稀疏模式，VideoNSA 通过端到端训练实现数据依赖的稀疏连接
混合注意力设计精妙：视频用稀疏、文本用稠密，兼顾效率与指令跟随
仅 3.6% 注意力预算即达最优：极致的计算效率
系统性的缩放分析：六大发现深入揭示了稀疏注意力在视频理解中的行为特性

局限性¶

训练数据质量有限（LLaVA-Video-178K 子集），SFT 后在部分基准上反而略有下降
压缩分支仍是推理瓶颈，kernel 和内存效率有待优化
仅在 7B 级别模型上验证，缺乏更大规模模型的实验
块大小固定为每帧 token 数，未探索自适应块划分策略

评分¶

⭐⭐⭐⭐ 新颖性：首次将可学习稀疏注意力系统性引入视频理解，混合注意力设计独到
⭐⭐⭐⭐ 技术质量：实验全面，六大发现分析深入透彻，消融实验充分
⭐⭐⭐⭐ 实用性：直接适用于现有 VLM 架构，代码和模型已开源
⭐⭐⭐ 写作质量：结构清晰但部分符号定义分散，Figure 描述可更精炼