VEU-Bench: Towards Comprehensive Understanding of Video Editing¶

会议: CVPR 2025
arXiv: 2504.17828
代码: 项目主页 (project page)
领域: 视频理解 / 视频编辑
关键词: 视频编辑理解, 视频大模型基准, 剪辑理解, 镜头分析, 抽象推理

一句话总结¶

提出 VEU-Bench，首个全面评估视频大模型对视频编辑元素理解能力的基准，涵盖10个编辑维度、3个评估层级（识别/推理/判断）共19个细粒度任务，并训练专家模型 Oscars 超越开源SOTA 28.3%。

研究背景与动机¶

领域现状：互联网上广泛分享的视频大多是经过编辑的视频。视频编辑涉及镜头构图（如景别、角色）、镜头运动（如推拉摇移）、剪切类型（如匹配剪切、跳切）和转场效果等多个维度。Video-LLMs（如Qwen2-VL、LLaVA-Video等）在通用视频理解任务上取得了显著进步。

现有痛点：三个核心问题。(1) 现有VEU基准（如AVE、MovieCuts、AutoTransition）主要聚焦于编辑元素的分类，缺乏对推理和判断层面的评估——比如不仅要识别"这是匹配剪切"，还要能解释为什么用匹配剪切以及它的叙事效果。(2) 现有基准覆盖的编辑维度不完整，通常只关注镜头设置或剪切类型中的某一个子集。(3) 缺乏对Video-LLMs在VEU任务上的系统性评估。

核心矛盾：视频编辑元素是抽象概念（如"匹配剪切"需要理解跨场景的形状/运动对齐模式），而非现实世界中直接可观察的物体或动作。这种抽象性使VEU成为评估模型抽象推理能力的天然场景，但当前Video-LLMs在这方面严重不足。

本文目标：(1) 构建全面覆盖视频编辑各维度各层级的基准；(2) 系统评估当前SOTA Video-LLMs的VEU能力；(3) 验证VEU数据对提升通用视频理解的价值。

切入角度：将视频编辑元素按帧内/帧间/镜头间三个粒度分类，在每个维度上从识别→推理→判断三个层级递进评估，并利用本体知识库实现高质量的自动标注。

核心 idea：构建基于本体知识库的标注pipeline，将VEU从简单分类扩展到推理和判断层级，用50K高质量数据训练的专家模型证明VEU数据能显著提升Video-LLMs的通用视频理解能力。

方法详解¶

整体框架¶

VEU-Bench包含30,000个视频和49,536个QA样本。数据来源于AVE、MovieCuts、AutoTransition等已有数据集，经过过滤、平衡和扩充。通过三层级任务设计（识别/推理/判断）× 十个编辑维度构成19个细粒度任务。Oscars专家模型基于Qwen2-VL-7B用LoRA在VEU-50K训练集上微调。

关键设计¶

十维度三层级任务体系:
- 功能：系统化地覆盖视频编辑理解的各个方面
- 核心思路：帧内维度(6个)——景别(Shot Size)、角度(Angle)、场景(Location)、主体(Subject)、类型(Type)、色彩(Color)，只需分析单帧。帧间维度(2个)——镜头运动(Motion)、播放速度(Speed)，需要分析同一场景内的多帧变化。跨镜头维度(2个)——剪切类型(Cut)、转场效果(Transition)，涉及不同场景之间的切换。三个评估层级：识别层（选择题分类）、推理层（识别+提供证据和原理）、判断层（评估编辑元素在具体视频中的功能和效果）。
- 设计动机：专业视频编辑教程定义了这三个粒度的分类，三层级评估从"是什么"→"为什么这样"→"效果如何"逐步加深难度。
基于本体知识库的自动标注Pipeline:
- 功能：将VEU任务从简单分类扩展到推理和判断，同时保证高质量标注
- 核心思路：首先参考专业剪辑教程为每个编辑元素构建知识库——推理任务定义"关键属性"（描述各维度的抽象模式），判断任务定义"功能"（描述编辑元素在视频内容中的作用）。标注时MLLM根据视频内容选择最相关的属性/功能，然后将抽象术语（如"物体"、"场景"）替换为具体内容。例如"匹配剪切"的属性"连接两个形状相似的物体跨帧"被具体化为"匹配剪切将形状相似的骨头和太空船连接跨帧"。
- 设计动机：直接让MLLM标注开放域推理任务效果差（即使GPT-4o也挣扎于VEU），通过将开放式推理简化为"基于知识库的改写"任务，降低了标注难度，保证了标注质量，同时确保回答包含正确的编辑模式知识。
Pattern Matching评估机制:
- 功能：更准确地评估推理和判断任务的回答质量
- 核心思路：评估分数由两部分组成——模式匹配分(PM)和信息匹配分(IM)。PM衡量回答与编辑模式本体的对齐度（video-agnostic的编辑知识），IM评估回答中具体视觉细节的准确性。最终开放题分数 \(S_{oe} = (5 \times Acc + S_{match})/2\)，其中 \(S_{match} = (PM + IM)/2\)。
- 设计动机：直接用LLM评分容易被回答中正确的描述性信息（如正确识别场景物体）所"迷惑"，即使模型误判了编辑模式也可能得高分。PM正则化降低了这种偏差，使评分更聚焦于编辑理解能力本身。

损失函数 / 训练策略¶

Oscars基于Qwen2-VL-7B，使用LoRA微调（r=16, α=32）。学习率1e-4，weight decay 0.01，warmup比例0.05，AdamW优化器。视频采样1 fps，最大64帧。训练集45,154个样本，4块A100 GPU训练。

实验关键数据¶

主实验¶

模型	Score_mc (识别)	Score_oe (推理+判断)	Score_all	vs开源SOTA提升
GPT-4o	2.93	2.36	2.64	-
Gemini-1.5-Pro	2.71	2.11	2.44	-
LLaVA-OV-7B (开源SOTA)	2.27	1.69	1.98	-
Qwen2-VL-7B (base)	2.33	1.31	1.82	-
Oscars (ours)	2.85	2.23	2.54	+28.3%

消融实验¶

配置	通用基准提升	说明
Qwen2-VL → Oscars (VideoMME-Attribute)	+7.3%	属性感知
Qwen2-VL → Oscars (MVBench-State Change)	+5.5%	状态变化
Qwen2-VL → Oscars (TempCompass-Order)	+8.5%	顺序理解
Qwen2-VL → Oscars (平均9个推理任务)	+8.3%	推理能力全面提升
Simple prompt vs Context prompt (Qwen2-VL)	+13.7%	加入编辑知识定义改善最大
Simple prompt vs Context prompt (VideoLLaMA2)	+6.6%	弱模型也受益
仅PM评分 vs PM+IM评分 (Spearman)	更高对齐	PM正则化提升人类对齐度

关键发现¶

Video-LLMs在VEU任务上表现远低于通用基准：在Video-MME上80%+的模型在VEU-Bench上部分维度低于随机猜测。识别帧内编辑元素远比识别帧间/跨镜头元素容易。
推理和判断任务极具挑战性：所有模型平均开放题分数不到2/5。判断任务（理解编辑意图）比推理任务（描述编辑模式）更难。
VEU数据显著提升通用视频理解：仅用50K VEU数据微调，就在VideoMME、MVBench、TempCompass的推理相关任务上平均提升8.3%。这证明编辑理解训练确实增强了模型的抽象推理能力。
概念知识 vs 视觉感知的独立性：模型对编辑概念的文本描述准确率不低(~2.7/3.0)，表明它们"知道"剪辑概念，但无法在视频中"看到"它们。问题出在语言模型内在知识与视觉感知模块的对齐上。
Context prompt提供编辑定义可大幅改善效果：对Qwen2-VL提升13.7%，但对已经很强的Gemini效果不明显。

亮点与洞察¶

VEU作为抽象推理的训练数据：编辑元素是抽象的专业概念，理解它们需要模式识别和推理能力。VEU训练数据意外地提升了通用视频理解中的推理任务，揭示了一种新的训练数据策略——使用领域特定的抽象任务数据来增强通用推理能力。
"知识有但看不到"的诊断实验：通过文本概念测试区分了"缺知识"和"知识-视觉对齐差"两种失败模式，发现后者是主因。这为改进方向提供了清晰指引。
本体知识库驱动的标注pipeline：将开放式推理标注简化为"选择+改写"两步，既保证了专业准确性又实现了规模化，这种策略可扩展到其他需要专业知识的标注场景。

局限与展望¶

视频主要来自已有数据集(AVE、MovieCuts、AutoTransition)，覆盖的视频类型和风格有限
当前只评估了短视频片段(1-60秒)，长视频中更复杂的编辑叙事理解未涉及
Oscars虽然超越开源SOTA，但在Cut和Transition维度仍弱于GPT-4o，说明跨镜头理解仍是难点
评估中pattern matching的PM分数依赖LLM判断，可能存在系统性偏差
知识库目前基于通用编辑教程，未涵盖特定领域的编辑手法（如纪录片、MV等）

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统化提出视频编辑理解的三层级评估框架，本体知识库标注pipeline新颖
实验充分度: ⭐⭐⭐⭐⭐ 11个模型全面评估，多维度深入分析，通用基准迁移验证充分
写作质量: ⭐⭐⭐⭐ 任务定义清晰，实验分析逻辑严谨，图表信息丰富
价值: ⭐⭐⭐⭐ VEU数据提升通用理解的发现有启发性，评估框架和数据集对社区有价值