Recurrent Attention-based Token Selection for Efficient Streaming Video-LLMs¶
会议: NeurIPS 2025
arXiv: 2510.17364
代码: 暂无
领域: 人体理解 / 人机交互
关键词: 流式视频理解, 视觉token压缩, 注意力选择, 长视频, Video-LLM
一句话总结¶
提出 rLiVS(Recurrent LLM-informed Visual Selection),一种无需训练的通用流式视频理解方法,通过LLM注意力权重选择关键视觉token(仅保留~6%)、循环复用历史token、基于字幕的检索问答三重设计,在流式视频基准上取得SOTA。
研究背景与动机¶
Video-LLM在短视频理解上表现优异,但在流式场景(小时级视频在线处理、问题需实时回答)中面临严峻挑战。视觉token数量随帧数线性增长,暴力处理全部帧在长视频中计算不可承受且超出上下文长度限制。
现有长视频理解方案各有局限: - 训练型方案(如VideoStreaming、Flash-VStream):需要额外训练,在任意长度视频上有外推问题,训练成本高 - KV-cache方案(如ReKV):存储完整解码器KV-cache,内存消耗大(18.8GB/小时),存在冗余 - 纯字幕方案(如Goldfish):独立处理各短片段,缺乏时间连续性,难以跟踪实体
作者从认知神经科学获得启发:注意力是有限记忆容量下选择性编码的关键,而过去经验塑造当前注意力。由此提出利用LLM自身注意力做视觉token选择、循环传递历史上下文、文本检索回答三者结合的方案。
方法详解¶
整体框架¶
将长视频切为短片段(如16帧),逐片段流式处理。每个片段经过:(1) 拼接历史选中token + 当前片段token → 输入LLM生成字幕;(2) 基于注意力权重从当前片段选出少量关键token → 加入FIFO历史队列;(3) 字幕存入长期文本记忆。问答时,从文本记忆中检索最相关字幕,送入LLM生成答案。
关键设计¶
- 基于注意力的视觉Token选择
在生成字幕后,利用已计算的注意力矩阵来衡量每个视觉token的重要性。从第 \(l\) 层第 \(h\) 个注意力头提取字幕token对视觉token的注意力系数:
$\(\mathbf{A}^{l,h}_V = \mathbf{A}^{l,h}[TN_V+N_I : TN_V+N_I+N_C, \; 0:TN_V]\)$
对每个视觉token \(j\),跨所有字幕token、注意力头和层求平均得到全局重要性分数:
$\(a_j = \frac{1}{L}\sum_{l=1}^{L}\frac{1}{H}\sum_{h=1}^{H}\left(\frac{1}{N_C}\sum_{i=1}^{N_C}\mathbf{A}^{l,h}_{V_{ij}}\right)\)$
选择分数最高的 \(N_S\) 个token保留(\(N_S \ll N_V\)),实践中仅保留6.25%(从3136个token中选196个)。为效率只需从\(L\)层中均匀采样4层即可获得稳健结果。
设计动机:注意力分数是LLM在字幕生成过程中已经计算好的信号,不引入额外开销;且自然反映了哪些视觉token对当前语言理解最重要。
- 循环式长视频处理
维护FIFO队列存储历史选中token \([\mathbf{S}^{(0)}, \mathbf{S}^{(1)}, \ldots, \mathbf{S}^{(t)}]\),在处理下一个短片段时作为上下文前缀输入LLM。当超出上下文窗口限制\(W\)时,丢弃最早的选中token。
循环设计的双重作用:(1) 增强短片段间的视觉连续性和一致性;(2) 引导LLM注意力关注与历史信息一致的内容,强化选择效果。
- 基于字幕的检索问答
存储所有短片段字幕的嵌入 \(\{\mathbf{X}_C^{(t)}\}\)。给定问题 \(q\),计算问题token \(\mathbf{X}_q\) 与字幕token的平均余弦相似度,用 MMR(Maximal Marginal Relevance)平衡相关性与多样性来检索top-K字幕。仅将检索到的字幕(非视觉token)输入LLM回答。
选择字幕而非视觉token的原因:实验发现视觉token与问题的相似度集中在[-0.02, 0.06]附近,几乎无区分度;而字幕相似度分布在[0.4, 0.9],区分度好。且LLM在长文本推理上能力成熟,将问题转化为文本QA更有效。
损失函数 / 训练策略¶
完全无需训练(training-free),直接基于预训练的Video-LLM推理。适用于任何短视频预训练的Video-LLM,无需调整架构。
实验关键数据¶
主实验¶
流式基准 (RVS-Ego / RVS-Movie):
| 方法 | 骨干 | RVS-Ego Acc | RVS-Movie Acc | 延迟 | VRAM |
|---|---|---|---|---|---|
| Flash-VStream-7B | 专用 | 57.3 | 53.1 | 2.1s | 19GB |
| ReKV | LLaVA-OV 7B | 63.7 | 54.4 | 2.7s | 36GB |
| rLiVS | LLaVA-OV 7B | 65.3 | 57.7 | 1.9s | 25GB |
| rLiVS | Qwen2.5-VL 7B | 68.1 | 56.1 | 2.7s | 19GB |
| ReKV | LLaVA-OV 0.5B | 54.7 | 44.6 | 1.6s | 19GB |
| rLiVS | LLaVA-OV 0.5B | 57.6 | 51.3 | 1.5s | 11GB |
离线基准:
| 方法 | VS-Ego Acc | VS-Movie Acc | MovieChat Acc | CG-Bench Acc |
|---|---|---|---|---|
| Flash-VStream-7B | 59.0 | 56.1 | - | - |
| Goldfish | - | - | 67.6 | - |
| rLiVS | 61.0 | 59.3 | 78.0 | 33.1 |
消融实验¶
Token选择方法对比 (NextQA, 保留6% token):
| 选择方法 | 准确率 |
|---|---|
| 完整模型 (100%) | 78.6 |
| 均匀采样 (6%) | 75.5 |
| Mean Pooling (6%) | 70.7 |
| K-Means (6%) | 76.8 |
| 注意力选择 (6%) | 77.0 |
| 注意力选择 (12%) | 78.4 |
设计选择消融 (流式基准):
| 配置 | RVS-Ego Acc | RVS-Movie Acc | 说明 |
|---|---|---|---|
| rLiVS (完整) | 65.3 | 57.7 | 包含循环+注意力选择+字幕问答 |
| 去除循环 | 62.5 | 53.7 | 循环贡献3-4%提升 |
| 用视觉token检索回答 | 58.2 | 48.4 | 字幕远优于视觉token |
| 均匀采样替代注意力选择 | 64.2 | 56.0 | 注意力选择优1-2% |
关键发现¶
- 仅保留6%视觉token,性能损失仅1.6%(NextQA);12%时几乎无损
- 循环传递历史token对长视频理解提升3-4个百分点
- 字幕显著优于视觉token作为检索和问答的信息载体
- 0.5B模型+rLiVS 超过了需要7B的多数竞争方法
- 10K上下文长度是效率与效果的最佳平衡点
亮点与洞察¶
- 方法极为简洁优雅:利用LLM已计算的注意力做选择,零额外开销
- 模型无关设计:可即插即用到LLaVA-OV、Qwen2.5-VL等任意Video-LLM
- KV-cache零存储:不需要像ReKV那样存储完整KV-cache(节省18.8GB/h)
- 认知科学启发的设计:注意力→选择性记忆→循环处理,模仿人类视觉信息处理机制
局限与展望¶
- 仅关注被选中内容,可能遗漏细粒度细节
- FIFO记忆缓冲区基于时间而非语义优先,关键但早期的信息可能被丢弃
- 循环字幕生成可能引入跨段冗余
- 完全依赖预训练骨干的能力,继承其局限
- 可探索自适应压缩率(根据场景复杂度动态调整保留比例)
相关工作与启发¶
- ReKV存储完整KV-Cache做流式理解 → rLiVS用极少token实现更好效果
- Goldfish独立处理短片段 → rLiVS通过循环增加时间连续性
- 注意力作为token重要性指标 → 可推广到其他多模态长上下文场景
- "将视频问答转化为文本QA"的洞察值得在其他长视频系统中借鉴
评分¶
- 新颖性: ⭐⭐⭐⭐ 整合已知概念(注意力选择、循环处理、字幕QA)为优雅的统一方案
- 实验充分度: ⭐⭐⭐⭐⭐ 流式+离线多基准、充分消融、效率对比
- 写作质量: ⭐⭐⭐⭐⭐ 刻画清晰、算法伪代码完整
- 价值: ⭐⭐⭐⭐⭐ 无训练、即插即用、高效实用,为流式视频理解设立了强基线
相关论文¶
- [ICML 2025] Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs
- [NeurIPS 2025] Switchable Token-Specific Codebook Quantization for Face Image Compression
- [NeurIPS 2025] SpecAttn: Speculating Sparse Attention
- [NeurIPS 2025] Learning Skill-Attributes for Transferable Assessment in Video
- [NeurIPS 2025] Node-Based Editing for Multimodal Generation of Text, Audio, Image, and Video