Generative Frame Sampler for Long Video Understanding¶

会议: ACL 2025
arXiv: 2503.09146
代码: https://generative-sampler.github.io (有)
领域: 视频理解 / 多模态VLM
关键词: 长视频理解, 帧采样, VideoLLM, 问题感知采样, 即插即用

一句话总结¶

提出 GenS，一个基于 VideoLLM 的生成式帧采样模块，用自然语言输出question-aware的相关帧时间段和置信度分数，作为即插即用模块在 LongVideoBench/MLVU/HourVideo 上为多种 VideoLLM 带来 2-4 个点的一致提升。

领域现状：长视频理解是当前 VideoLLM 的核心挑战。由于上下文窗口限制，VideoLLM 必须从长视频中采样有限帧。主流方法使用均匀采样或固定 FPS，忽略了问题与视频内容的相关性。
现有痛点：(1) 均匀采样对长视频浪费大量 token 在无关帧上；(2) 基于 CLIP/SigLIP 的语义匹配采样只能做单帧独立打分，无法理解帧间时序关系；(3) 缺少考虑多跳推理和时序逻辑的采样方法。
核心矛盾：高效帧采样是长视频理解的瓶颈——采样策略直接决定了 VideoLLM 能否"看到"回答问题所需的关键帧。
本文要解决什么：设计一个 question-aware 的帧采样器，能理解帧间时序关系并选择最相关的帧。
切入角度：将帧采样建模为生成式任务——用 VideoLLM 直接输出相关帧的时间段和置信度分数（自然语言形式）。
核心 idea：用 VideoLLM（Aria 256帧窗口）处理稀疏采样的视频帧，生成连续时间段 + 置信度（0-5）的采样结果，再从高置信段密集采样。

四阶段数据集构建（GenS-Video-150K）→ 训练 GenS 采样器（基于 Aria）→ 推理时先用 GenS 采样再送入任意 VideoLLM 回答。

GenS-Video-150K 数据集构建:
做什么：创建大规模帧采样训练数据
核心思路：(1) 对视频密集采帧并用 VLM 为每帧生成描述；(2) 用 LLM 根据帧描述生成 QA 对，同时标注 grounded 帧；(3) 用 CLIP 在标注帧附近扩展相关帧窗口；(4) 用细粒度评分（0-5）标注每帧与问题的相关度
设计动机：约 20% 的帧被标注（稀疏但精准），0-5 的连续分数比二元标注更灵活，支持 top-K 检索
生成式帧采样（GenS）:
做什么：将帧采样建模为文本生成任务
核心思路：输入稀疏采样帧 + 问题，输出连续帧时间段（如"帧 10-25"）及对应置信度分数。按置信度排序后从高分段密集采样
设计动机：生成连续时间段（而非离散帧索引）能捕获时序连续性；置信度排序实现自适应的 top-K 采样
即插即用设计:
做什么：GenS 独立于下游 VideoLLM
核心思路：GenS 先采样关键帧 → 关键帧送入任意 VideoLLM → VideoLLM 回答问题。GenS 基于 Aria（256帧上下文），下游 VLM 可以是任何模型
设计动机：解耦采样和理解，一个 GenS 可服务所有 VideoLLM

基线 VideoLLM	LongVideoBench	MLVU	HourVideo
LLaVA-Video-72B	62.5→66.8 (+4.3)	74.3→77.0 (+2.7)	-
Aria	58.7→66.1 (+7.4)	69.5→72.6 (+3.1)	37.3→39.2 (+1.9)
Qwen2-VL-7B	58.7→60.3 (+1.6)	64.7→66.9 (+2.2)	-
GPT-4o	66.7→67.6 (+0.9)	-	-
Gemini-1.5-pro	-	-	37.3→40.7 (+3.4)