VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?¶

会议: CVPR 2025
arXiv: 2411.10979
代码: https://yunlong10.github.io/VidComposition/ (有)
领域: 多模态VLM
关键词: 视频理解, 视频组成分析, MLLM基准, 电影分析, 镜头语言

一句话总结¶

提出VidComposition基准，专门评估MLLM对编辑合成视频（影视、动画等）的构图理解能力，涵盖5大类15个子任务（镜头运动、叙事结构、角色理解等），对33个MLLM的评测揭示了模型与人类在电影级视频理解上的巨大差距（最佳模型63.3% vs 人类86.3%）。

研究背景与动机¶

现有MLLM视频评估基准存在三个关键缺陷。第一，大多数基准关注自然拍摄视频的抽象理解（如动作识别、场景描述），忽略了编辑合成视频（compiled videos）——即通过剪辑、组合多个片段创建的影视作品——这类视频需要逐镜头分析。第二，现有基准缺乏对视频"构图"（composition）的细粒度评估，如镜头运动感知、景别判断、叙事结构理解等电影分析核心能力。第三，尽管TVQA等基准包含合成视频，但其组成性问答粒度粗糙，仅限于"谁、何时、何地"等基础问题。核心矛盾是：编辑合成视频在现代视频平台上占主导地位（电影、短视频、vlog），但MLLM是否真正理解这些视频的构图语言，我们无从得知。

方法详解¶

整体框架¶

VidComposition是一个人工标注的高质量基准，包含982个编辑合成视频和1706个多选题，覆盖5大评估维度和15个子任务。视频来源为电影、电视剧、动画等的解说视频（无版权问题），平均时长约20分钟，分割为平均794帧的片段，移除音频以防止语音作弊。

关键设计¶

五维度十五子任务评估体系:
- 功能：系统化覆盖电影级视频构图理解的各个方面
- 核心思路：
  - 摄影分析（CA）：镜头运动感知（推/拉/摇/移/静止）、景别感知（全景/中景/特写）、镜头角度感知（俯/仰/平）
  - 角色理解（CU）：情感感知、动作感知、服装化妆道具感知、角色计数
  - 叙事理解（NU）：剧本匹配（将解说文本与视频匹配）、情节排序（恢复打乱的剧情顺序）
  - 场景感知（SP）：背景感知、场景计数、光线感知
  - 制作分析（MA）：艺术风格感知、剪切计数、特效感知
- 设计动机：覆盖从技术层面（镜头参数）到叙事层面（情节结构）的完整视频构图分析能力，这在现有基准中完全空白
高质量人工标注流程:
- 功能：确保基准数据的准确性和难度控制
- 核心思路：多轮标注+审核系统。感知类任务（动作、情感等）由标注者观看视频直接撰写正确答案和干扰选项；专业任务（镜头运动、景别等）使用预定义标签集。剧本匹配使用字幕文件中的解说文本，干扰选项来自相邻片段。情节排序将解说脚本分段打乱后要求还原
- 设计动机：自动生成QA对无法保证电影领域专业问题的质量，人工标注虽然昂贵但确保了基准的可靠性
难度分级与分析框架:
- 功能：揭示MLLM在不同难度和维度上的能力分布
- 核心思路：根据被模型正确回答的比例分级——>60%模型答对为Easy，<10%为Super Hard。额外分析影响因素：输入帧数、视觉编码器分辨率、语言解码器规模、微调数据量
- 设计动机：不仅要知道模型表现如何，还要理解为什么，为模型改进提供方向指引

实验关键数据¶

主实验（33个MLLM在VidComposition上的表现，选Top模型）¶

模型	整体	摄影分析	角色理解	叙事理解	场景感知	制作分析
Human	86.3	83.2	90.5	97.3	85.5	89.0
LLaVA-OneVision-72B	63.3	61.3	79.5	78.6	59.7	66.0
InternVL2-40B	60.7	55.2	75.3	65.8	64.0	66.2
GPT-4o	52.9	45.6	68.6	66.9	54.2	64.0
Gemini-1.5-Pro	49.4	45.7	68.1	42.0	60.7	72.9

维度分析¶

子任务	人类准确率	最佳MLLM	差距
镜头运动感知	84.1%	57.1% (LLaVA-OV-72B)	-27.0%
剧本匹配	97.0%	90.6% (GPT-4o)	-6.4%
场景计数	80.2%	53.6% (Qwen2-VL-72B)	-26.6%
剪切计数	87.5%	58.6% (Gemini-1.5-Pro)	-28.9%
动作感知	92.3%	90.0% (多模型)	-2.3%

关键发现¶

摄影分析是最难维度：模型在镜头运动/角度/景别理解上显著落后于人类，表明当前MLLM缺乏专业视觉分析能力
动作感知接近人类水平（90.0% vs 92.3%），但这与现有基准的关注点一致，说明模型在简单感知任务上已经saturate
模型对计数类任务普遍较差：场景计数（最高53.6%）、剪切计数（最高58.6%），说明精确的时序切分能力是重大短板
更多帧输入不一定更好：部分模型在32帧时反而比64帧表现更好，帧数与信息利用效率的关系非单调

亮点与洞察¶

填补了重要空白：首个系统评估MLLM电影级视频构图理解的基准，15个子任务的设计极其全面
揭示了深刻的能力差距：模型能理解"发生了什么"但不理解"怎么拍的"——缺乏对视频制作技术（镜头、剪辑、特效）的理解
对视频生成评估的启示：VidComposition可用于自动评估生成视频的构图质量，连接视频理解与生成

局限性¶

视频来源为解说视频（非原始电影片段），可能引入解说者的二次编辑偏差
移除音频虽然防止模型利用语音捷径，但也损失了某些任务（如情感感知）的重要信息
部分子任务（如镜头角度判断）的标签定义可能存在主观性，不同标注者对"俯拍"和"平拍"的边界判断可能不一致
仅评估多选题形式，未涉及开放式生成评估，可能低估了某些模型的理解深度
数据集规模（982视频/1706题）相对较小，部分子任务样本量不足以得出统计可靠的结论

补充分析¶

数据集中"Super Hard"问题（<10%模型答对）主要集中在摄影分析和制作分析维度，说明这些需要专业领域知识的任务是MLLM的系统性盲区
有趣的发现是API模型（GPT-4o, Gemini）在某些专业任务上不如开源的LLaVA-OneVision-72B，暗示开源模型在视频理解上可能有独特优势
基准的独特贡献之一是所有视频都移除了音频——这确保评估的是纯视觉理解而非多模态捷径
叙事理解中的情节排序（P-O）任务与NLP中的句子排序类似，但需要视觉锚定，揭示了跨模态时序推理的困难

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首创电影级视频构图理解评估，填补了MLLM评估的重要空白
实验充分度: ⭐⭐⭐⭐⭐ 33个模型的全面评测+影响因素分析+难度分级，分析极其充分
写作质量: ⭐⭐⭐⭐ 结构清晰，分类体系设计合理，但部分子任务定义可更精确
价值: ⭐⭐⭐⭐⭐ 为视频理解研究提供了全新方向，直接揭示了当前模型的核心短板