跳转至

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

会议: CVPR 2025
arXiv: 2411.10979
代码: https://yunlong10.github.io/VidComposition/ (有)
领域: 多模态VLM
关键词: 视频理解, 视频组成分析, MLLM基准, 电影分析, 镜头语言

一句话总结

提出VidComposition基准,专门评估MLLM对编辑合成视频(影视、动画等)的构图理解能力,涵盖5大类15个子任务(镜头运动、叙事结构、角色理解等),对33个MLLM的评测揭示了模型与人类在电影级视频理解上的巨大差距(最佳模型63.3% vs 人类86.3%)。

研究背景与动机

现有MLLM视频评估基准存在三个关键缺陷。第一,大多数基准关注自然拍摄视频的抽象理解(如动作识别、场景描述),忽略了编辑合成视频(compiled videos)——即通过剪辑、组合多个片段创建的影视作品——这类视频需要逐镜头分析。第二,现有基准缺乏对视频"构图"(composition)的细粒度评估,如镜头运动感知、景别判断、叙事结构理解等电影分析核心能力。第三,尽管TVQA等基准包含合成视频,但其组成性问答粒度粗糙,仅限于"谁、何时、何地"等基础问题。核心矛盾是:编辑合成视频在现代视频平台上占主导地位(电影、短视频、vlog),但MLLM是否真正理解这些视频的构图语言,我们无从得知

方法详解

整体框架

VidComposition是一个人工标注的高质量基准,包含982个编辑合成视频和1706个多选题,覆盖5大评估维度和15个子任务。视频来源为电影、电视剧、动画等的解说视频(无版权问题),平均时长约20分钟,分割为平均794帧的片段,移除音频以防止语音作弊。

关键设计

  1. 五维度十五子任务评估体系:

    • 功能:系统化覆盖电影级视频构图理解的各个方面
    • 核心思路:
      • 摄影分析(CA):镜头运动感知(推/拉/摇/移/静止)、景别感知(全景/中景/特写)、镜头角度感知(俯/仰/平)
      • 角色理解(CU):情感感知、动作感知、服装化妆道具感知、角色计数
      • 叙事理解(NU):剧本匹配(将解说文本与视频匹配)、情节排序(恢复打乱的剧情顺序)
      • 场景感知(SP):背景感知、场景计数、光线感知
      • 制作分析(MA):艺术风格感知、剪切计数、特效感知
    • 设计动机:覆盖从技术层面(镜头参数)到叙事层面(情节结构)的完整视频构图分析能力,这在现有基准中完全空白
  2. 高质量人工标注流程:

    • 功能:确保基准数据的准确性和难度控制
    • 核心思路:多轮标注+审核系统。感知类任务(动作、情感等)由标注者观看视频直接撰写正确答案和干扰选项;专业任务(镜头运动、景别等)使用预定义标签集。剧本匹配使用字幕文件中的解说文本,干扰选项来自相邻片段。情节排序将解说脚本分段打乱后要求还原
    • 设计动机:自动生成QA对无法保证电影领域专业问题的质量,人工标注虽然昂贵但确保了基准的可靠性
  3. 难度分级与分析框架:

    • 功能:揭示MLLM在不同难度和维度上的能力分布
    • 核心思路:根据被模型正确回答的比例分级——>60%模型答对为Easy,<10%为Super Hard。额外分析影响因素:输入帧数、视觉编码器分辨率、语言解码器规模、微调数据量
    • 设计动机:不仅要知道模型表现如何,还要理解为什么,为模型改进提供方向指引

实验关键数据

主实验(33个MLLM在VidComposition上的表现,选Top模型)

模型 整体 摄影分析 角色理解 叙事理解 场景感知 制作分析
Human 86.3 83.2 90.5 97.3 85.5 89.0
LLaVA-OneVision-72B 63.3 61.3 79.5 78.6 59.7 66.0
InternVL2-40B 60.7 55.2 75.3 65.8 64.0 66.2
GPT-4o 52.9 45.6 68.6 66.9 54.2 64.0
Gemini-1.5-Pro 49.4 45.7 68.1 42.0 60.7 72.9

维度分析

子任务 人类准确率 最佳MLLM 差距
镜头运动感知 84.1% 57.1% (LLaVA-OV-72B) -27.0%
剧本匹配 97.0% 90.6% (GPT-4o) -6.4%
场景计数 80.2% 53.6% (Qwen2-VL-72B) -26.6%
剪切计数 87.5% 58.6% (Gemini-1.5-Pro) -28.9%
动作感知 92.3% 90.0% (多模型) -2.3%

关键发现

  • 摄影分析是最难维度:模型在镜头运动/角度/景别理解上显著落后于人类,表明当前MLLM缺乏专业视觉分析能力
  • 动作感知接近人类水平(90.0% vs 92.3%),但这与现有基准的关注点一致,说明模型在简单感知任务上已经saturate
  • 模型对计数类任务普遍较差:场景计数(最高53.6%)、剪切计数(最高58.6%),说明精确的时序切分能力是重大短板
  • 更多帧输入不一定更好:部分模型在32帧时反而比64帧表现更好,帧数与信息利用效率的关系非单调

亮点与洞察

  • 填补了重要空白:首个系统评估MLLM电影级视频构图理解的基准,15个子任务的设计极其全面
  • 揭示了深刻的能力差距:模型能理解"发生了什么"但不理解"怎么拍的"——缺乏对视频制作技术(镜头、剪辑、特效)的理解
  • 对视频生成评估的启示:VidComposition可用于自动评估生成视频的构图质量,连接视频理解与生成

局限性

  • 视频来源为解说视频(非原始电影片段),可能引入解说者的二次编辑偏差
  • 移除音频虽然防止模型利用语音捷径,但也损失了某些任务(如情感感知)的重要信息
  • 部分子任务(如镜头角度判断)的标签定义可能存在主观性,不同标注者对"俯拍"和"平拍"的边界判断可能不一致
  • 仅评估多选题形式,未涉及开放式生成评估,可能低估了某些模型的理解深度
  • 数据集规模(982视频/1706题)相对较小,部分子任务样本量不足以得出统计可靠的结论

相关工作与启发

  • 相比Video-MME等通用视频基准,VidComposition的关键差异在于关注"how"而非"what"——不是视频中发生了什么,而是视频是如何被构造的
  • 与Winoground和MMComposition的图像组成性评估思路一致,但扩展到更复杂的视频维度
  • 启发:视频MLLM在训练数据中缺乏电影制作相关的标注数据,引入专业电影分析语料可能是提升此类能力的关键
  • 可以将VidComposition的评估维度应用于视频生成质量评估,如评估Sora生成视频的镜头语言质量

补充分析

  • 数据集中"Super Hard"问题(<10%模型答对)主要集中在摄影分析和制作分析维度,说明这些需要专业领域知识的任务是MLLM的系统性盲区
  • 有趣的发现是API模型(GPT-4o, Gemini)在某些专业任务上不如开源的LLaVA-OneVision-72B,暗示开源模型在视频理解上可能有独特优势
  • 基准的独特贡献之一是所有视频都移除了音频——这确保评估的是纯视觉理解而非多模态捷径
  • 叙事理解中的情节排序(P-O)任务与NLP中的句子排序类似,但需要视觉锚定,揭示了跨模态时序推理的困难

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首创电影级视频构图理解评估,填补了MLLM评估的重要空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 33个模型的全面评测+影响因素分析+难度分级,分析极其充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分类体系设计合理,但部分子任务定义可更精确
  • 价值: ⭐⭐⭐⭐⭐ 为视频理解研究提供了全新方向,直接揭示了当前模型的核心短板

相关论文