VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video SpatioTemporal Augmentation¶

会议: CVPR 2025
arXiv: 2412.00927
代码: 项目主页
领域: 视频理解
关键词: 长视频理解, 高分辨率视频, 数据增强, 大针小草堆, 视频LMM

一句话总结¶

提出 VISTA 框架，通过时空组合现有视频-描述数据集合成长时和高分辨率视频指令数据（涵盖 7 种增强方法），构建 VISTA-400K 数据集，在长视频理解基准上平均提升 3.3%，并首创高分辨率视频理解基准 HRVideoBench 实现 6.5% 提升。

研究背景与动机¶

长视频和高分辨率的挑战：当前开源视频 LMM 主要针对短、低分辨率视频优化，处理长序列视频输入（长视频或高分辨率）仍是重大挑战。
高质量数据稀缺：现有视频指令数据集面临时长短（VideoChat2 主要为短视频）、采样率低（ShareGPT4Video 仅 0.15fps，内容近乎静态）、分辨率低（FineVideo 以 360p 为主）等局限。
闭源方案不透明：Kangaroo、Qwen2-VL 等声称使用长视频训练数据但不公开数据细节，阻碍了社区理解什么样的数据真正有助于长视频理解。
数据增强的灵感：图像/视频分类中的 CutMix、MixUp、VideoMix 证明了合成数据可训练更鲁棒的分类器，本文将这一思路扩展到视频 LMM 的指令微调。
高分辨率基准空白：此前不存在专门评估视频 LMM 在高分辨率视频上的理解能力的综合基准。

方法详解¶

整体框架¶

VISTA 框架：给定候选视频集 \(\mathbf{V}\) 及其描述 \(\mathbf{C}\)，通过视频增强算子 \(\Phi\) 产生增强视频 \(V^* = \Phi(\mathbf{V})\)，通过 Gemini-1.5-Pro 作为 QA 生成器 \(\Theta\) 产生问答对 \((q,a) = \Theta(\mathbf{C})\)。包含 7 种增强方法，产出 VISTA-400K 数据集（约 40 万条）。

关键设计¶

设计一：时间域增强 — 长视频描述 + 事件关系 QA - 功能：通过时间拼接短片段合成长视频，生成摘要和事件顺序理解的指令数据 - 核心思路：从同一源视频中提取多个短片段（间隔≤5秒），拼接为长视频。用 Gemini 基于各片段描述生成长视频摘要（Long Video Captioning）和事件顺序相关的问答对（Event Relationship QA），包含自由形式和多选题。 - 设计动机：保留自然场景转场的同时延长视频时长；事件顺序理解是长视频理解的核心能力。

设计二：时空 Needle-in-a-Haystack (NIAH) QA - 功能：训练模型从长/高分辨率视频的海量 token 中精准检索关键信息 - 核心思路：四种变体：(1) Temporal NIAH: 短片段随机插入长视频中间；(2) Two Needle NIAH: 短片段分成两半插入长视频不同时间点；(3) Spatial NIAH: 小分辨率视频叠加到高分辨率视频的随机位置；(4) Spatiotemporal NIAH: 同时在时间和空间维度插入 needle。多选题的干扰选项从 haystack 描述生成，确保模型未找到 needle 时更可能选错。 - 设计动机：NIAH 是评估 LLM/LMM 长上下文检索能力的标准范式；四种变体覆盖了时间、空间、时空的不同检索维度。

设计三：高分辨率视频网格 QA - 功能：增强模型对高分辨率视频中局部区域的理解能力 - 核心思路：随机采样 64 个低分辨率视频排列为 \(8 \times 8\) 网格（每个 240×135），合成为 1920×1080 视频。随机选取特定单元格 \((i,j)\) 生成关于该格内容的问答。干扰选项来自其他格。 - 设计动机：模拟高分辨率视频中需要关注局部细节的场景，训练模型基于空间索引定位并理解小区域内容。

损失函数¶

使用标准的视频 LMM 指令微调损失（交叉熵/next-token prediction），在 VISTA-400K 上微调基线模型。

实验关键数据¶

VISTA-400K 数据集统计¶

子集	类型	平均时长	平均分辨率	数据量
Long Video Captioning	描述	33.2s	1277×720	58.6K
Event Relationship QA	QA	33.4s	1278×720	56.9K
Temporal NIAH	QA	67.6s	640×358	59.8K
Two Needle NIAH	QA	112.4s	591×382	52.3K
Spatial NIAH	QA	9.9s	1726×971	60.0K
Spatiotemporal NIAH	QA	89.9s	591×383	56.5K
HR Video Grid QA	QA	3s	1920×1080	59.9K
VISTA-400K	-	48.6s	1160×666	403.9K

微调提升效果¶

指标	长视频基准平均提升	HRVideoBench 提升
VISTA 微调	+3.3%	+6.5%

关键发现¶

在 Video-MME、MLVU、LVBench、LongVideoBench 四个长视频基准上平均提升 3.3%
首创的 HRVideoBench 上提升 6.5%，证明空间 NIAH 和网格 QA 有效
消融实验表明去除视频增强后性能显著下降——合成视频本身是关键
QA 合成仅需文本处理（Gemini API），无需多模态功能，成本远低于其他方法

亮点与洞察¶

数据为中心 (data-centric) 的视角：不改模型架构，仅通过高质量合成数据即可显著提升长/高分辨率视频理解
NIAH 训练数据的创新：将 LLM 评估中的 NIAH 范式转化为训练数据生成方法
完全开源可复现：数据来源均为公开数据集，合成管线可扩展
HRVideoBench 填补了高分辨率视频理解评估的空白
成本效率优势明显：不依赖 Gemini 的多模态能力，仅用文本处理 API

局限与展望¶

合成视频的拼接/叠加可能引入不自然的视觉伪影，模型可能学到"拼接边界"等虚假模式
NIAH 方法生成的 QA 可能相对简单，未充分覆盖需要深层推理的问题类型
当前增强主要基于简单的几何组合（拼接/叠加/网格），缺乏语义级别的视频合成
HRVideoBench 仅含 200 道题，规模和语义多样性有待扩展
依赖 Gemini-1.5-Pro 生成 QA 对，引入了对闭源模型的依赖

评分¶

⭐⭐⭐⭐ — 以简洁实用的数据增强框架解决了长/高分辨率视频理解的数据瓶颈，NIAH 训练数据的设计特别有创意。VISTA-400K 和 HRVideoBench 对社区都有重要贡献。