跳转至

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video SpatioTemporal Augmentation

会议: CVPR 2025
arXiv: 2412.00927
代码: 项目主页
领域: 视频理解
关键词: 长视频理解, 高分辨率视频, 数据增强, 大针小草堆, 视频LMM

一句话总结

提出 VISTA 框架,通过时空组合现有视频-描述数据集合成长时和高分辨率视频指令数据(涵盖 7 种增强方法),构建 VISTA-400K 数据集,在长视频理解基准上平均提升 3.3%,并首创高分辨率视频理解基准 HRVideoBench 实现 6.5% 提升。

研究背景与动机

  • 长视频和高分辨率的挑战:当前开源视频 LMM 主要针对短、低分辨率视频优化,处理长序列视频输入(长视频或高分辨率)仍是重大挑战。
  • 高质量数据稀缺:现有视频指令数据集面临时长短(VideoChat2 主要为短视频)、采样率低(ShareGPT4Video 仅 0.15fps,内容近乎静态)、分辨率低(FineVideo 以 360p 为主)等局限。
  • 闭源方案不透明:Kangaroo、Qwen2-VL 等声称使用长视频训练数据但不公开数据细节,阻碍了社区理解什么样的数据真正有助于长视频理解。
  • 数据增强的灵感:图像/视频分类中的 CutMix、MixUp、VideoMix 证明了合成数据可训练更鲁棒的分类器,本文将这一思路扩展到视频 LMM 的指令微调。
  • 高分辨率基准空白:此前不存在专门评估视频 LMM 在高分辨率视频上的理解能力的综合基准。

方法详解

整体框架

VISTA 框架:给定候选视频集 \(\mathbf{V}\) 及其描述 \(\mathbf{C}\),通过视频增强算子 \(\Phi\) 产生增强视频 \(V^* = \Phi(\mathbf{V})\),通过 Gemini-1.5-Pro 作为 QA 生成器 \(\Theta\) 产生问答对 \((q,a) = \Theta(\mathbf{C})\)。包含 7 种增强方法,产出 VISTA-400K 数据集(约 40 万条)。

关键设计

设计一:时间域增强 — 长视频描述 + 事件关系 QA - 功能:通过时间拼接短片段合成长视频,生成摘要和事件顺序理解的指令数据 - 核心思路:从同一源视频中提取多个短片段(间隔≤5秒),拼接为长视频。用 Gemini 基于各片段描述生成长视频摘要(Long Video Captioning)和事件顺序相关的问答对(Event Relationship QA),包含自由形式和多选题。 - 设计动机:保留自然场景转场的同时延长视频时长;事件顺序理解是长视频理解的核心能力。

设计二:时空 Needle-in-a-Haystack (NIAH) QA - 功能:训练模型从长/高分辨率视频的海量 token 中精准检索关键信息 - 核心思路:四种变体:(1) Temporal NIAH: 短片段随机插入长视频中间;(2) Two Needle NIAH: 短片段分成两半插入长视频不同时间点;(3) Spatial NIAH: 小分辨率视频叠加到高分辨率视频的随机位置;(4) Spatiotemporal NIAH: 同时在时间和空间维度插入 needle。多选题的干扰选项从 haystack 描述生成,确保模型未找到 needle 时更可能选错。 - 设计动机:NIAH 是评估 LLM/LMM 长上下文检索能力的标准范式;四种变体覆盖了时间、空间、时空的不同检索维度。

设计三:高分辨率视频网格 QA - 功能:增强模型对高分辨率视频中局部区域的理解能力 - 核心思路:随机采样 64 个低分辨率视频排列为 \(8 \times 8\) 网格(每个 240×135),合成为 1920×1080 视频。随机选取特定单元格 \((i,j)\) 生成关于该格内容的问答。干扰选项来自其他格。 - 设计动机:模拟高分辨率视频中需要关注局部细节的场景,训练模型基于空间索引定位并理解小区域内容。

损失函数

使用标准的视频 LMM 指令微调损失(交叉熵/next-token prediction),在 VISTA-400K 上微调基线模型。

实验关键数据

VISTA-400K 数据集统计

子集 类型 平均时长 平均分辨率 数据量
Long Video Captioning 描述 33.2s 1277×720 58.6K
Event Relationship QA QA 33.4s 1278×720 56.9K
Temporal NIAH QA 67.6s 640×358 59.8K
Two Needle NIAH QA 112.4s 591×382 52.3K
Spatial NIAH QA 9.9s 1726×971 60.0K
Spatiotemporal NIAH QA 89.9s 591×383 56.5K
HR Video Grid QA QA 3s 1920×1080 59.9K
VISTA-400K - 48.6s 1160×666 403.9K

微调提升效果

指标 长视频基准平均提升 HRVideoBench 提升
VISTA 微调 +3.3% +6.5%

关键发现

  1. 在 Video-MME、MLVU、LVBench、LongVideoBench 四个长视频基准上平均提升 3.3%
  2. 首创的 HRVideoBench 上提升 6.5%,证明空间 NIAH 和网格 QA 有效
  3. 消融实验表明去除视频增强后性能显著下降——合成视频本身是关键
  4. QA 合成仅需文本处理(Gemini API),无需多模态功能,成本远低于其他方法

亮点与洞察

  • 数据为中心 (data-centric) 的视角:不改模型架构,仅通过高质量合成数据即可显著提升长/高分辨率视频理解
  • NIAH 训练数据的创新:将 LLM 评估中的 NIAH 范式转化为训练数据生成方法
  • 完全开源可复现:数据来源均为公开数据集,合成管线可扩展
  • HRVideoBench 填补了高分辨率视频理解评估的空白
  • 成本效率优势明显:不依赖 Gemini 的多模态能力,仅用文本处理 API

局限与展望

  • 合成视频的拼接/叠加可能引入不自然的视觉伪影,模型可能学到"拼接边界"等虚假模式
  • NIAH 方法生成的 QA 可能相对简单,未充分覆盖需要深层推理的问题类型
  • 当前增强主要基于简单的几何组合(拼接/叠加/网格),缺乏语义级别的视频合成
  • HRVideoBench 仅含 200 道题,规模和语义多样性有待扩展
  • 依赖 Gemini-1.5-Pro 生成 QA 对,引入了对闭源模型的依赖

相关工作与启发

  • vs ShareGPT4Video: ShareGPT4Video 采集 40K 高质量描述但视频本身 0.15fps 近乎静态,VISTA 通过时空增强产出的视频具有真实的时间动态和空间多样性
  • vs Kangaroo / Qwen2-VL: 这些模型声称使用长视频训练数据但不公开细节,VISTA 完全开源且可复现,让社区可以研究什么数据真正有效
  • VISTA 的视频增强思路可推广到 3D 场景理解、音视频多模态等领域的数据合成
  • NIAH 训练范式对所有需要长上下文检索能力的 LMM 都有参考价值
  • 网格 QA 方法类似 visual grounding 的训练策略,可迁移到高分辨率图像理解

评分

⭐⭐⭐⭐ — 以简洁实用的数据增强框架解决了长/高分辨率视频理解的数据瓶颈,NIAH 训练数据的设计特别有创意。VISTA-400K 和 HRVideoBench 对社区都有重要贡献。

相关论文