跳转至

MovieRecapsQA: A Multimodal Open-Ended Video Question-Answering Benchmark

会议: CVPR 2026
arXiv: 2601.02536
代码: MovieRecapsQA (已开源)
领域: 视频理解
关键词: 视频问答, 多模态理解, 开放式评估, 电影理解, 无参考评估

一句话总结

提出 MovieRecapsQA,一个基于电影解说视频构建的多模态开放式视频问答基准,包含 60 部电影的约 8.2K 个问题,并设计了基于原子事实 (atomic facts) 的无参考评估指标,揭示了当前 MLLM 在视觉感知而非推理上的关键瓶颈。

研究背景与动机

  1. 领域现状:视频问答(VideoQA)是评估模型视频理解能力的核心代理任务。现有基准主要聚焦于单一模态或短视频,并大量采用多选题格式以简化评估复杂度。真正需要整合视觉和对话线索的多模态长视频 QA 基准非常稀少。

  2. 现有痛点:(a) 多选题提供了"捷径"——模型可以不理解视频就通过排除法作答;(b) 开放式问答由于答案非固定格式,评估极其困难;(c) 基于参考答案的评估方法(如 ROUGE、BERTScore)与人类判断的相关性很低;(d) 用 LLM 作为裁判做 VideoQA 评估时,将完整视频作为上下文既昂贵又不精确。

  3. 核心矛盾:开放式评估与可衡量性之间的矛盾——多选题容易评估但不够真实,开放式问答真实但无法可靠评估。

  4. 本文目标 (a) 如何构建高质量的多模态长视频开放式 QA 数据集?(b) 如何在不依赖参考答案的情况下可靠评估开放式回答?

  5. 切入角度:利用电影解说视频(recap videos)作为数据源——解说的旁白天然提供了视频内容的文本摘要,可以自动提取原子事实来支撑无参考评估。

  6. 核心 idea:用电影解说视频的旁白提取原子事实作为中间标注层,既支撑需要多模态推理的问题生成,又使得无需参考答案即可评估回答的事实性和相关性。

方法详解

整体框架

整个系统分为两大部分:(1) 数据集构建——从 YouTube 收集 60 部电影的解说视频,进行场景对齐,然后自动生成 QA 对和原子事实;(2) 评估框架——设计基于原子事实的无参考 LLM 裁判,从事实性和相关性两个维度评判开放式回答。

关键设计

  1. 解说视频对齐 (Recap-Movie Alignment):

    • 功能:将解说视频的每个段落精确对齐到原始电影的对应场景和对话
    • 核心思路:先用 SceneDetect 对电影和解说视频分别进行场景分割,然后用 SlowFast 模型提取每个场景首尾帧的视觉嵌入,通过余弦相似度匹配对应镜头,最后用统计对齐步骤强制半时序顺序。由此不仅得到视频-视频对齐,还能获得旁白-电影-对话的三方对齐。
    • 设计动机:解说视频天然将叙述与视觉片段紧密耦合,这比 Wikipedia 简介或 IMDb 剧情简介提供了更密集的场景级覆盖,也使得问题可以被精确定位到电影的特定时间段。
  2. 原子事实驱动的 QA 生成 (Fact-Based QA Generation):

    • 功能:从解说旁白中自动生成高质量的问答对
    • 核心思路:将每个解说段落输入 GPT-4.1,先提取所有原子事实(简洁的可验证命题),然后生成依赖这些事实的 QA 对。为避免答案过于详细导致问题太简单,额外生成简化版 QA——使用简化问题 + 详细答案的组合。每个问题被标注为需要的模态类型(视觉、对话、两者皆需)。
    • 设计动机:原子事实作为中间层实现了三个目标:(a) 使生成的问题确实需要多模态推理,(b) 提供了精确的文本表示来替代视频内容用于评估,(c) 无需人工编写参考答案。
  3. 无参考评估指标 (Reference-Free Evaluation):

    • 功能:不依赖参考答案,直接评估模型回答的事实性和相关性
    • 核心思路:对于每个问题 \(q\),收集关联的原子事实集合 \(\mathcal{F}_q\),同时从模型回答中提取声明 \(\mathcal{C}_r\)。使用 GPT-4.1-mini 作为 LLM 裁判,基于问题、原子事实和字幕,在事实性(0-5分)和相关性(0-5分)两个维度上打分。这避免了将完整视频输入裁判的高计算成本和不可靠性。
    • 设计动机:文本 QA 中的 LLM裁判无法直接迁移到 VideoQA,因为用视频作为验证上下文既昂贵又不精确。原子事实提供了紧凑的、可验证的文本替代,使得无参考评估成为可能。

损失函数 / 训练策略

本文是数据集/评估工作,不涉及模型训练。数据集使用 GPT-4.1 构建所有组件(事实提取、QA 生成、评估裁判)。

实验关键数据

主实验

模型 ROUGE-L BERTScore HELMET Correct. Factuality(ours) Relevance(ours)
GPT-4o 0.28 0.68 1.43 3.99 3.97
Gemini-2.5-Flash 0.22 0.63 1.82 3.26 3.70
Claude 3.5 Sonnet 0.22 0.63 1.35 3.76 3.92
Amazon Nova Lite 0.28 0.69 1.29 3.53 3.93
Qwen2.5VL 0.26 0.67 1.23 3.47 3.83
MiniCPM-o 0.24 0.65 1.27 3.21 3.61
LLaVA-NeXT-Video 0.23 0.65 0.98 2.96 3.35
人类 (平均) 0.16 0.88 0.98 4.01 4.01
人类 (最佳) 0.19 0.87 1.26 4.59 4.53

消融实验(按模态类型分解)

模态类型 闭源模型 Factuality 开源模型 Factuality 人类 Factuality
对话型 3.63 3.21 4.17
视觉型 3.15 3.05 3.84
多模态 3.55 3.11 3.84

关键发现

  • 语义指标完全失效:ROUGE-L 范围仅 0.22-0.28,BERTScore 仅 0.63-0.69,几乎无法区分模型好坏,甚至把人类排在模型之后
  • 参考评估指标反直觉:HELMET Correctness 把 MiniCPM-o (1.27) 评得比人类最佳 (1.26) 还高,完全不符合直觉
  • 本文无参考指标最有区分度:Factuality 从 2.96 到 3.99 跨度大,且与人类得分 (4.01/4.59) 形成合理的差距
  • 视觉是主要瓶颈:所有模型在视觉型问题上的事实性得分最低,且移除视觉输入反而提升了闭源模型的事实性,说明模型看到图片后反而引入了错误信息
  • 模型知道看哪里,但不知道说什么:相关性分数在各模态间保持稳定,但事实性波动大,说明模型定位能力可以但细粒度视觉信息提取能力不足

亮点与洞察

  • 原子事实作为中间标注层的设计非常巧妙:它同时解决了"如何生成好问题"和"如何评估答案"两个难题。原子事实比参考答案更灵活——同一事实可以多种方式表达,避免了参考评估的刚性
  • "移除视觉反而提升事实性"是一个极具洞察力的发现:它揭示了当前 MLLM 不是不会"推理"视觉信息,而是"感知"就出了问题——看到的信息是错的,推理自然也就错了
  • 电影解说视频作为数据源的思路有很好的可扩展性:YouTube 上有大量此类内容,且天然提供了视频-文本对齐,可以迁移到教育视频、体育解说等其他有旁白的视频类型

局限与展望

  • 数据来自 YouTube 解说视频,可能存在解说者的主观偏差和遗漏
  • 仅 60 部电影,规模有限,且电影类型的分布未详细报告
  • 原子事实提取和 QA 生成完全依赖 GPT-4.1,可能引入大语言模型自身的偏差
  • 评估裁判使用 GPT-4.1-mini 以降低成本,但其裁判能力可能不如更大的模型
  • 缺乏对更长输入设置(完整电影)的系统性实验

相关工作与启发

  • vs MovieQA / TVQA:这些经典基准使用多选题、依赖人工标注,规模受限。本文使用开放式问答 + 自动构建,且引入了模态标注和无参考评估
  • vs CinePile:CinePile 也是自动生成的大规模基准(303K QA),但仍使用多选题,且没有模态细分。本文虽然规模较小(8.2K),但在评估设计上更先进
  • vs FactScore/VeriScore:这些文本 QA 中的事实性评估工作启发了本文的设计,但本文首次将原子事实评估扩展到 VideoQA 领域

评分

  • 新颖性: ⭐⭐⭐⭐ 利用解说视频构建基准+无参考评估的组合思路新颖,但核心技术(LLM提取事实、LLM裁判)并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 7个模型+人类评估、多种评估指标对比、按模态/推理类型的详细分解分析
  • 写作质量: ⭐⭐⭐⭐⭐ 论文逻辑清晰,motivation推导自然,实验发现的表述精确有洞察力
  • 价值: ⭐⭐⭐⭐ 为长视频多模态理解提供了重要的评估工具,"视觉感知是瓶颈"的发现对领域有指导意义

相关论文