跳转至

Generative Frame Sampler for Long Video Understanding

会议: ACL 2025
arXiv: 2503.09146
代码: https://generative-sampler.github.io (有)
领域: 视频理解 / 多模态VLM
关键词: 长视频理解, 帧采样, VideoLLM, 问题感知采样, 即插即用

一句话总结

提出 GenS,一个基于 VideoLLM 的生成式帧采样模块,用自然语言输出question-aware的相关帧时间段和置信度分数,作为即插即用模块在 LongVideoBench/MLVU/HourVideo 上为多种 VideoLLM 带来 2-4 个点的一致提升。

研究背景与动机

  1. 领域现状:长视频理解是当前 VideoLLM 的核心挑战。由于上下文窗口限制,VideoLLM 必须从长视频中采样有限帧。主流方法使用均匀采样或固定 FPS,忽略了问题与视频内容的相关性。
  2. 现有痛点:(1) 均匀采样对长视频浪费大量 token 在无关帧上;(2) 基于 CLIP/SigLIP 的语义匹配采样只能做单帧独立打分,无法理解帧间时序关系;(3) 缺少考虑多跳推理和时序逻辑的采样方法。
  3. 核心矛盾:高效帧采样是长视频理解的瓶颈——采样策略直接决定了 VideoLLM 能否"看到"回答问题所需的关键帧。
  4. 本文要解决什么:设计一个 question-aware 的帧采样器,能理解帧间时序关系并选择最相关的帧。
  5. 切入角度:将帧采样建模为生成式任务——用 VideoLLM 直接输出相关帧的时间段和置信度分数(自然语言形式)。
  6. 核心 idea:用 VideoLLM(Aria 256帧窗口)处理稀疏采样的视频帧,生成连续时间段 + 置信度(0-5)的采样结果,再从高置信段密集采样。

方法详解

整体框架

四阶段数据集构建(GenS-Video-150K)→ 训练 GenS 采样器(基于 Aria)→ 推理时先用 GenS 采样再送入任意 VideoLLM 回答。

关键设计

  1. GenS-Video-150K 数据集构建:
  2. 做什么:创建大规模帧采样训练数据
  3. 核心思路:(1) 对视频密集采帧并用 VLM 为每帧生成描述;(2) 用 LLM 根据帧描述生成 QA 对,同时标注 grounded 帧;(3) 用 CLIP 在标注帧附近扩展相关帧窗口;(4) 用细粒度评分(0-5)标注每帧与问题的相关度
  4. 设计动机:约 20% 的帧被标注(稀疏但精准),0-5 的连续分数比二元标注更灵活,支持 top-K 检索

  5. 生成式帧采样(GenS):

  6. 做什么:将帧采样建模为文本生成任务
  7. 核心思路:输入稀疏采样帧 + 问题,输出连续帧时间段(如"帧 10-25")及对应置信度分数。按置信度排序后从高分段密集采样
  8. 设计动机:生成连续时间段(而非离散帧索引)能捕获时序连续性;置信度排序实现自适应的 top-K 采样

  9. 即插即用设计:

  10. 做什么:GenS 独立于下游 VideoLLM
  11. 核心思路:GenS 先采样关键帧 → 关键帧送入任意 VideoLLM → VideoLLM 回答问题。GenS 基于 Aria(256帧上下文),下游 VLM 可以是任何模型
  12. 设计动机:解耦采样和理解,一个 GenS 可服务所有 VideoLLM

损失函数 / 训练策略

  • 基于 Aria 模型微调,标准 next-token prediction loss
  • 任务特定 prompt 优于统一 prompt
  • 文本索引优于视觉+文本混合索引

实验关键数据

主实验

基线 VideoLLM LongVideoBench MLVU HourVideo
LLaVA-Video-72B 62.5→66.8 (+4.3) 74.3→77.0 (+2.7) -
Aria 58.7→66.1 (+7.4) 69.5→72.6 (+3.1) 37.3→39.2 (+1.9)
Qwen2-VL-7B 58.7→60.3 (+1.6) 64.7→66.9 (+2.2) -
GPT-4o 66.7→67.6 (+0.9) - -
Gemini-1.5-pro - - 37.3→40.7 (+3.4)

消融实验

采样策略 LongVideoBench (Aria)
Uniform 54.4
CLIP sampler ~55
GenS (GenS-Video-150K data only) 57.7 (+3.3)
GenS full 66.1 (+11.7)

关键发现

  • 一致提升所有模型:开源(Qwen, LLaVA, Aria, VILA)和闭源(GPT-4o, Gemini)均提升 1-7 个点
  • 连续时间段 > 离散帧索引:输出连续帧段+置信度(56.1)优于离散帧索引的表现
  • LongVideoBench 提升最大:该 benchmark 需要跨时间的多跳推理,最能体现 question-aware 采样的优势
  • GenS 可在小模型训练后泛化到大模型:基于 Aria 训练的 GenS 有效提升 72B 的 LLaVA-Video

亮点与洞察

  • "帧采样即生成"的范式转换:将采样从检索/匹配问题重新定义为生成问题,让 VideoLLM 直接"说出"哪些帧重要。这使得模型能利用时序推理能力做采样
  • 置信度分数做 soft ranking:比 hard 的二元选择更灵活,支持不同下游模型按需取 top-K
  • 小模型做采样,大模型做理解:成本高效的分工策略

局限性 / 可改进方向

  • GenS 需要处理 256 帧/窗口,计算开销不可忽略(但可通过并行窗口缓解)
  • 目前单轮采样,未探索多轮迭代检索和 Video Agent 集成
  • 训练数据依赖 VLM 帧描述质量,描述错误会传播到采样标注
  • 仅在问答任务上评估,视频摘要/视频 grounding 等任务未测试

相关工作与启发

  • vs CLIP/SigLIP 采样: 它们做单帧独立打分,无法理解时序关系。GenS 输出时间段,天然考虑时序连续性
  • vs TimeChat: TimeChat 用时间感知编码但不做显式采样。GenS 是显式的采样前端
  • vs FPS/均匀采样: 对长视频浪费大量 token。GenS 实现 question-aware 的智能采样

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将帧采样建模为生成任务是全新视角,数据集构建流程完整
  • 实验充分度: ⭐⭐⭐⭐⭐ 跨 6+ 模型、3 个 benchmark、详细消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰
  • 价值: ⭐⭐⭐⭐⭐ 即插即用的通用方案,对长视频理解有直接实用价值

评分