VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video SpatioTemporal Augmentation¶
会议: CVPR 2025
arXiv: 2412.00927
代码: 项目主页
领域: 视频理解
关键词: 长视频理解, 高分辨率视频, 数据增强, 大针小草堆, 视频LMM
一句话总结¶
提出 VISTA 框架,通过时空组合现有视频-描述数据集合成长时和高分辨率视频指令数据(涵盖 7 种增强方法),构建 VISTA-400K 数据集,在长视频理解基准上平均提升 3.3%,并首创高分辨率视频理解基准 HRVideoBench 实现 6.5% 提升。
研究背景与动机¶
- 长视频和高分辨率的挑战:当前开源视频 LMM 主要针对短、低分辨率视频优化,处理长序列视频输入(长视频或高分辨率)仍是重大挑战。
- 高质量数据稀缺:现有视频指令数据集面临时长短(VideoChat2 主要为短视频)、采样率低(ShareGPT4Video 仅 0.15fps,内容近乎静态)、分辨率低(FineVideo 以 360p 为主)等局限。
- 闭源方案不透明:Kangaroo、Qwen2-VL 等声称使用长视频训练数据但不公开数据细节,阻碍了社区理解什么样的数据真正有助于长视频理解。
- 数据增强的灵感:图像/视频分类中的 CutMix、MixUp、VideoMix 证明了合成数据可训练更鲁棒的分类器,本文将这一思路扩展到视频 LMM 的指令微调。
- 高分辨率基准空白:此前不存在专门评估视频 LMM 在高分辨率视频上的理解能力的综合基准。
方法详解¶
整体框架¶
VISTA 框架:给定候选视频集 \(\mathbf{V}\) 及其描述 \(\mathbf{C}\),通过视频增强算子 \(\Phi\) 产生增强视频 \(V^* = \Phi(\mathbf{V})\),通过 Gemini-1.5-Pro 作为 QA 生成器 \(\Theta\) 产生问答对 \((q,a) = \Theta(\mathbf{C})\)。包含 7 种增强方法,产出 VISTA-400K 数据集(约 40 万条)。
关键设计¶
设计一:时间域增强 — 长视频描述 + 事件关系 QA - 功能:通过时间拼接短片段合成长视频,生成摘要和事件顺序理解的指令数据 - 核心思路:从同一源视频中提取多个短片段(间隔≤5秒),拼接为长视频。用 Gemini 基于各片段描述生成长视频摘要(Long Video Captioning)和事件顺序相关的问答对(Event Relationship QA),包含自由形式和多选题。 - 设计动机:保留自然场景转场的同时延长视频时长;事件顺序理解是长视频理解的核心能力。
设计二:时空 Needle-in-a-Haystack (NIAH) QA - 功能:训练模型从长/高分辨率视频的海量 token 中精准检索关键信息 - 核心思路:四种变体:(1) Temporal NIAH: 短片段随机插入长视频中间;(2) Two Needle NIAH: 短片段分成两半插入长视频不同时间点;(3) Spatial NIAH: 小分辨率视频叠加到高分辨率视频的随机位置;(4) Spatiotemporal NIAH: 同时在时间和空间维度插入 needle。多选题的干扰选项从 haystack 描述生成,确保模型未找到 needle 时更可能选错。 - 设计动机:NIAH 是评估 LLM/LMM 长上下文检索能力的标准范式;四种变体覆盖了时间、空间、时空的不同检索维度。
设计三:高分辨率视频网格 QA - 功能:增强模型对高分辨率视频中局部区域的理解能力 - 核心思路:随机采样 64 个低分辨率视频排列为 \(8 \times 8\) 网格(每个 240×135),合成为 1920×1080 视频。随机选取特定单元格 \((i,j)\) 生成关于该格内容的问答。干扰选项来自其他格。 - 设计动机:模拟高分辨率视频中需要关注局部细节的场景,训练模型基于空间索引定位并理解小区域内容。
损失函数¶
使用标准的视频 LMM 指令微调损失(交叉熵/next-token prediction),在 VISTA-400K 上微调基线模型。
实验关键数据¶
VISTA-400K 数据集统计¶
| 子集 | 类型 | 平均时长 | 平均分辨率 | 数据量 |
|---|---|---|---|---|
| Long Video Captioning | 描述 | 33.2s | 1277×720 | 58.6K |
| Event Relationship QA | QA | 33.4s | 1278×720 | 56.9K |
| Temporal NIAH | QA | 67.6s | 640×358 | 59.8K |
| Two Needle NIAH | QA | 112.4s | 591×382 | 52.3K |
| Spatial NIAH | QA | 9.9s | 1726×971 | 60.0K |
| Spatiotemporal NIAH | QA | 89.9s | 591×383 | 56.5K |
| HR Video Grid QA | QA | 3s | 1920×1080 | 59.9K |
| VISTA-400K | - | 48.6s | 1160×666 | 403.9K |
微调提升效果¶
| 指标 | 长视频基准平均提升 | HRVideoBench 提升 |
|---|---|---|
| VISTA 微调 | +3.3% | +6.5% |
关键发现¶
- 在 Video-MME、MLVU、LVBench、LongVideoBench 四个长视频基准上平均提升 3.3%
- 首创的 HRVideoBench 上提升 6.5%,证明空间 NIAH 和网格 QA 有效
- 消融实验表明去除视频增强后性能显著下降——合成视频本身是关键
- QA 合成仅需文本处理(Gemini API),无需多模态功能,成本远低于其他方法
亮点与洞察¶
- 数据为中心 (data-centric) 的视角:不改模型架构,仅通过高质量合成数据即可显著提升长/高分辨率视频理解
- NIAH 训练数据的创新:将 LLM 评估中的 NIAH 范式转化为训练数据生成方法
- 完全开源可复现:数据来源均为公开数据集,合成管线可扩展
- HRVideoBench 填补了高分辨率视频理解评估的空白
- 成本效率优势明显:不依赖 Gemini 的多模态能力,仅用文本处理 API
局限与展望¶
- 合成视频的拼接/叠加可能引入不自然的视觉伪影,模型可能学到"拼接边界"等虚假模式
- NIAH 方法生成的 QA 可能相对简单,未充分覆盖需要深层推理的问题类型
- 当前增强主要基于简单的几何组合(拼接/叠加/网格),缺乏语义级别的视频合成
- HRVideoBench 仅含 200 道题,规模和语义多样性有待扩展
- 依赖 Gemini-1.5-Pro 生成 QA 对,引入了对闭源模型的依赖
相关工作与启发¶
- vs ShareGPT4Video: ShareGPT4Video 采集 40K 高质量描述但视频本身 0.15fps 近乎静态,VISTA 通过时空增强产出的视频具有真实的时间动态和空间多样性
- vs Kangaroo / Qwen2-VL: 这些模型声称使用长视频训练数据但不公开细节,VISTA 完全开源且可复现,让社区可以研究什么数据真正有效
- VISTA 的视频增强思路可推广到 3D 场景理解、音视频多模态等领域的数据合成
- NIAH 训练范式对所有需要长上下文检索能力的 LMM 都有参考价值
- 网格 QA 方法类似 visual grounding 的训练策略,可迁移到高分辨率图像理解
评分¶
⭐⭐⭐⭐ — 以简洁实用的数据增强框架解决了长/高分辨率视频理解的数据瓶颈,NIAH 训练数据的设计特别有创意。VISTA-400K 和 HRVideoBench 对社区都有重要贡献。
相关论文¶
- [CVPR 2025] DrVideo: Document Retrieval Based Long Video Understanding
- [CVPR 2025] MLVU: Benchmarking Multi-task Long Video Understanding
- [ICCV 2025] AllTracker: Efficient Dense Point Tracking at High Resolution
- [CVPR 2025] Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation
- [AAAI 2026] VTinker: Guided Flow Upsampling and Texture Mapping for High-Resolution Video Frame Interpolation