VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?¶
会议: CVPR 2025
arXiv: 2411.10979
代码: https://yunlong10.github.io/VidComposition/ (有)
领域: 多模态VLM
关键词: 视频理解, 视频组成分析, MLLM基准, 电影分析, 镜头语言
一句话总结¶
提出VidComposition基准,专门评估MLLM对编辑合成视频(影视、动画等)的构图理解能力,涵盖5大类15个子任务(镜头运动、叙事结构、角色理解等),对33个MLLM的评测揭示了模型与人类在电影级视频理解上的巨大差距(最佳模型63.3% vs 人类86.3%)。
研究背景与动机¶
现有MLLM视频评估基准存在三个关键缺陷。第一,大多数基准关注自然拍摄视频的抽象理解(如动作识别、场景描述),忽略了编辑合成视频(compiled videos)——即通过剪辑、组合多个片段创建的影视作品——这类视频需要逐镜头分析。第二,现有基准缺乏对视频"构图"(composition)的细粒度评估,如镜头运动感知、景别判断、叙事结构理解等电影分析核心能力。第三,尽管TVQA等基准包含合成视频,但其组成性问答粒度粗糙,仅限于"谁、何时、何地"等基础问题。核心矛盾是:编辑合成视频在现代视频平台上占主导地位(电影、短视频、vlog),但MLLM是否真正理解这些视频的构图语言,我们无从得知。
方法详解¶
整体框架¶
VidComposition是一个人工标注的高质量基准,包含982个编辑合成视频和1706个多选题,覆盖5大评估维度和15个子任务。视频来源为电影、电视剧、动画等的解说视频(无版权问题),平均时长约20分钟,分割为平均794帧的片段,移除音频以防止语音作弊。
关键设计¶
-
五维度十五子任务评估体系:
- 功能:系统化覆盖电影级视频构图理解的各个方面
- 核心思路:
- 摄影分析(CA):镜头运动感知(推/拉/摇/移/静止)、景别感知(全景/中景/特写)、镜头角度感知(俯/仰/平)
- 角色理解(CU):情感感知、动作感知、服装化妆道具感知、角色计数
- 叙事理解(NU):剧本匹配(将解说文本与视频匹配)、情节排序(恢复打乱的剧情顺序)
- 场景感知(SP):背景感知、场景计数、光线感知
- 制作分析(MA):艺术风格感知、剪切计数、特效感知
- 设计动机:覆盖从技术层面(镜头参数)到叙事层面(情节结构)的完整视频构图分析能力,这在现有基准中完全空白
-
高质量人工标注流程:
- 功能:确保基准数据的准确性和难度控制
- 核心思路:多轮标注+审核系统。感知类任务(动作、情感等)由标注者观看视频直接撰写正确答案和干扰选项;专业任务(镜头运动、景别等)使用预定义标签集。剧本匹配使用字幕文件中的解说文本,干扰选项来自相邻片段。情节排序将解说脚本分段打乱后要求还原
- 设计动机:自动生成QA对无法保证电影领域专业问题的质量,人工标注虽然昂贵但确保了基准的可靠性
-
难度分级与分析框架:
- 功能:揭示MLLM在不同难度和维度上的能力分布
- 核心思路:根据被模型正确回答的比例分级——>60%模型答对为Easy,<10%为Super Hard。额外分析影响因素:输入帧数、视觉编码器分辨率、语言解码器规模、微调数据量
- 设计动机:不仅要知道模型表现如何,还要理解为什么,为模型改进提供方向指引
实验关键数据¶
主实验(33个MLLM在VidComposition上的表现,选Top模型)¶
| 模型 | 整体 | 摄影分析 | 角色理解 | 叙事理解 | 场景感知 | 制作分析 |
|---|---|---|---|---|---|---|
| Human | 86.3 | 83.2 | 90.5 | 97.3 | 85.5 | 89.0 |
| LLaVA-OneVision-72B | 63.3 | 61.3 | 79.5 | 78.6 | 59.7 | 66.0 |
| InternVL2-40B | 60.7 | 55.2 | 75.3 | 65.8 | 64.0 | 66.2 |
| GPT-4o | 52.9 | 45.6 | 68.6 | 66.9 | 54.2 | 64.0 |
| Gemini-1.5-Pro | 49.4 | 45.7 | 68.1 | 42.0 | 60.7 | 72.9 |
维度分析¶
| 子任务 | 人类准确率 | 最佳MLLM | 差距 |
|---|---|---|---|
| 镜头运动感知 | 84.1% | 57.1% (LLaVA-OV-72B) | -27.0% |
| 剧本匹配 | 97.0% | 90.6% (GPT-4o) | -6.4% |
| 场景计数 | 80.2% | 53.6% (Qwen2-VL-72B) | -26.6% |
| 剪切计数 | 87.5% | 58.6% (Gemini-1.5-Pro) | -28.9% |
| 动作感知 | 92.3% | 90.0% (多模型) | -2.3% |
关键发现¶
- 摄影分析是最难维度:模型在镜头运动/角度/景别理解上显著落后于人类,表明当前MLLM缺乏专业视觉分析能力
- 动作感知接近人类水平(90.0% vs 92.3%),但这与现有基准的关注点一致,说明模型在简单感知任务上已经saturate
- 模型对计数类任务普遍较差:场景计数(最高53.6%)、剪切计数(最高58.6%),说明精确的时序切分能力是重大短板
- 更多帧输入不一定更好:部分模型在32帧时反而比64帧表现更好,帧数与信息利用效率的关系非单调
亮点与洞察¶
- 填补了重要空白:首个系统评估MLLM电影级视频构图理解的基准,15个子任务的设计极其全面
- 揭示了深刻的能力差距:模型能理解"发生了什么"但不理解"怎么拍的"——缺乏对视频制作技术(镜头、剪辑、特效)的理解
- 对视频生成评估的启示:VidComposition可用于自动评估生成视频的构图质量,连接视频理解与生成
局限性¶
- 视频来源为解说视频(非原始电影片段),可能引入解说者的二次编辑偏差
- 移除音频虽然防止模型利用语音捷径,但也损失了某些任务(如情感感知)的重要信息
- 部分子任务(如镜头角度判断)的标签定义可能存在主观性,不同标注者对"俯拍"和"平拍"的边界判断可能不一致
- 仅评估多选题形式,未涉及开放式生成评估,可能低估了某些模型的理解深度
- 数据集规模(982视频/1706题)相对较小,部分子任务样本量不足以得出统计可靠的结论
相关工作与启发¶
- 相比Video-MME等通用视频基准,VidComposition的关键差异在于关注"how"而非"what"——不是视频中发生了什么,而是视频是如何被构造的
- 与Winoground和MMComposition的图像组成性评估思路一致,但扩展到更复杂的视频维度
- 启发:视频MLLM在训练数据中缺乏电影制作相关的标注数据,引入专业电影分析语料可能是提升此类能力的关键
- 可以将VidComposition的评估维度应用于视频生成质量评估,如评估Sora生成视频的镜头语言质量
补充分析¶
- 数据集中"Super Hard"问题(<10%模型答对)主要集中在摄影分析和制作分析维度,说明这些需要专业领域知识的任务是MLLM的系统性盲区
- 有趣的发现是API模型(GPT-4o, Gemini)在某些专业任务上不如开源的LLaVA-OneVision-72B,暗示开源模型在视频理解上可能有独特优势
- 基准的独特贡献之一是所有视频都移除了音频——这确保评估的是纯视觉理解而非多模态捷径
- 叙事理解中的情节排序(P-O)任务与NLP中的句子排序类似,但需要视觉锚定,揭示了跨模态时序推理的困难
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首创电影级视频构图理解评估,填补了MLLM评估的重要空白
- 实验充分度: ⭐⭐⭐⭐⭐ 33个模型的全面评测+影响因素分析+难度分级,分析极其充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分类体系设计合理,但部分子任务定义可更精确
- 价值: ⭐⭐⭐⭐⭐ 为视频理解研究提供了全新方向,直接揭示了当前模型的核心短板
相关论文¶
- [CVPR 2025] ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos
- [ACL 2025] Can MLLMs Understand the Deep Implication Behind Chinese Images?
- [CVPR 2025] VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
- [ICCV 2025] Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images
- [CVPR 2025] Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering Incorrectly