MovieRecapsQA: A Multimodal Open-Ended Video Question-Answering Benchmark¶
会议: CVPR 2026
arXiv: 2601.02536
代码: MovieRecapsQA (已开源)
领域: 视频理解
关键词: 视频问答, 多模态理解, 开放式评估, 电影理解, 无参考评估
一句话总结¶
提出 MovieRecapsQA,一个基于电影解说视频构建的多模态开放式视频问答基准,包含 60 部电影的约 8.2K 个问题,并设计了基于原子事实 (atomic facts) 的无参考评估指标,揭示了当前 MLLM 在视觉感知而非推理上的关键瓶颈。
研究背景与动机¶
-
领域现状:视频问答(VideoQA)是评估模型视频理解能力的核心代理任务。现有基准主要聚焦于单一模态或短视频,并大量采用多选题格式以简化评估复杂度。真正需要整合视觉和对话线索的多模态长视频 QA 基准非常稀少。
-
现有痛点:(a) 多选题提供了"捷径"——模型可以不理解视频就通过排除法作答;(b) 开放式问答由于答案非固定格式,评估极其困难;(c) 基于参考答案的评估方法(如 ROUGE、BERTScore)与人类判断的相关性很低;(d) 用 LLM 作为裁判做 VideoQA 评估时,将完整视频作为上下文既昂贵又不精确。
-
核心矛盾:开放式评估与可衡量性之间的矛盾——多选题容易评估但不够真实,开放式问答真实但无法可靠评估。
-
本文目标 (a) 如何构建高质量的多模态长视频开放式 QA 数据集?(b) 如何在不依赖参考答案的情况下可靠评估开放式回答?
-
切入角度:利用电影解说视频(recap videos)作为数据源——解说的旁白天然提供了视频内容的文本摘要,可以自动提取原子事实来支撑无参考评估。
-
核心 idea:用电影解说视频的旁白提取原子事实作为中间标注层,既支撑需要多模态推理的问题生成,又使得无需参考答案即可评估回答的事实性和相关性。
方法详解¶
整体框架¶
整个系统分为两大部分:(1) 数据集构建——从 YouTube 收集 60 部电影的解说视频,进行场景对齐,然后自动生成 QA 对和原子事实;(2) 评估框架——设计基于原子事实的无参考 LLM 裁判,从事实性和相关性两个维度评判开放式回答。
关键设计¶
-
解说视频对齐 (Recap-Movie Alignment):
- 功能:将解说视频的每个段落精确对齐到原始电影的对应场景和对话
- 核心思路:先用 SceneDetect 对电影和解说视频分别进行场景分割,然后用 SlowFast 模型提取每个场景首尾帧的视觉嵌入,通过余弦相似度匹配对应镜头,最后用统计对齐步骤强制半时序顺序。由此不仅得到视频-视频对齐,还能获得旁白-电影-对话的三方对齐。
- 设计动机:解说视频天然将叙述与视觉片段紧密耦合,这比 Wikipedia 简介或 IMDb 剧情简介提供了更密集的场景级覆盖,也使得问题可以被精确定位到电影的特定时间段。
-
原子事实驱动的 QA 生成 (Fact-Based QA Generation):
- 功能:从解说旁白中自动生成高质量的问答对
- 核心思路:将每个解说段落输入 GPT-4.1,先提取所有原子事实(简洁的可验证命题),然后生成依赖这些事实的 QA 对。为避免答案过于详细导致问题太简单,额外生成简化版 QA——使用简化问题 + 详细答案的组合。每个问题被标注为需要的模态类型(视觉、对话、两者皆需)。
- 设计动机:原子事实作为中间层实现了三个目标:(a) 使生成的问题确实需要多模态推理,(b) 提供了精确的文本表示来替代视频内容用于评估,(c) 无需人工编写参考答案。
-
无参考评估指标 (Reference-Free Evaluation):
- 功能:不依赖参考答案,直接评估模型回答的事实性和相关性
- 核心思路:对于每个问题 \(q\),收集关联的原子事实集合 \(\mathcal{F}_q\),同时从模型回答中提取声明 \(\mathcal{C}_r\)。使用 GPT-4.1-mini 作为 LLM 裁判,基于问题、原子事实和字幕,在事实性(0-5分)和相关性(0-5分)两个维度上打分。这避免了将完整视频输入裁判的高计算成本和不可靠性。
- 设计动机:文本 QA 中的 LLM裁判无法直接迁移到 VideoQA,因为用视频作为验证上下文既昂贵又不精确。原子事实提供了紧凑的、可验证的文本替代,使得无参考评估成为可能。
损失函数 / 训练策略¶
本文是数据集/评估工作,不涉及模型训练。数据集使用 GPT-4.1 构建所有组件(事实提取、QA 生成、评估裁判)。
实验关键数据¶
主实验¶
| 模型 | ROUGE-L | BERTScore | HELMET Correct. | Factuality(ours) | Relevance(ours) |
|---|---|---|---|---|---|
| GPT-4o | 0.28 | 0.68 | 1.43 | 3.99 | 3.97 |
| Gemini-2.5-Flash | 0.22 | 0.63 | 1.82 | 3.26 | 3.70 |
| Claude 3.5 Sonnet | 0.22 | 0.63 | 1.35 | 3.76 | 3.92 |
| Amazon Nova Lite | 0.28 | 0.69 | 1.29 | 3.53 | 3.93 |
| Qwen2.5VL | 0.26 | 0.67 | 1.23 | 3.47 | 3.83 |
| MiniCPM-o | 0.24 | 0.65 | 1.27 | 3.21 | 3.61 |
| LLaVA-NeXT-Video | 0.23 | 0.65 | 0.98 | 2.96 | 3.35 |
| 人类 (平均) | 0.16 | 0.88 | 0.98 | 4.01 | 4.01 |
| 人类 (最佳) | 0.19 | 0.87 | 1.26 | 4.59 | 4.53 |
消融实验(按模态类型分解)¶
| 模态类型 | 闭源模型 Factuality | 开源模型 Factuality | 人类 Factuality |
|---|---|---|---|
| 对话型 | 3.63 | 3.21 | 4.17 |
| 视觉型 | 3.15 | 3.05 | 3.84 |
| 多模态 | 3.55 | 3.11 | 3.84 |
关键发现¶
- 语义指标完全失效:ROUGE-L 范围仅 0.22-0.28,BERTScore 仅 0.63-0.69,几乎无法区分模型好坏,甚至把人类排在模型之后
- 参考评估指标反直觉:HELMET Correctness 把 MiniCPM-o (1.27) 评得比人类最佳 (1.26) 还高,完全不符合直觉
- 本文无参考指标最有区分度:Factuality 从 2.96 到 3.99 跨度大,且与人类得分 (4.01/4.59) 形成合理的差距
- 视觉是主要瓶颈:所有模型在视觉型问题上的事实性得分最低,且移除视觉输入反而提升了闭源模型的事实性,说明模型看到图片后反而引入了错误信息
- 模型知道看哪里,但不知道说什么:相关性分数在各模态间保持稳定,但事实性波动大,说明模型定位能力可以但细粒度视觉信息提取能力不足
亮点与洞察¶
- 原子事实作为中间标注层的设计非常巧妙:它同时解决了"如何生成好问题"和"如何评估答案"两个难题。原子事实比参考答案更灵活——同一事实可以多种方式表达,避免了参考评估的刚性
- "移除视觉反而提升事实性"是一个极具洞察力的发现:它揭示了当前 MLLM 不是不会"推理"视觉信息,而是"感知"就出了问题——看到的信息是错的,推理自然也就错了
- 电影解说视频作为数据源的思路有很好的可扩展性:YouTube 上有大量此类内容,且天然提供了视频-文本对齐,可以迁移到教育视频、体育解说等其他有旁白的视频类型
局限与展望¶
- 数据来自 YouTube 解说视频,可能存在解说者的主观偏差和遗漏
- 仅 60 部电影,规模有限,且电影类型的分布未详细报告
- 原子事实提取和 QA 生成完全依赖 GPT-4.1,可能引入大语言模型自身的偏差
- 评估裁判使用 GPT-4.1-mini 以降低成本,但其裁判能力可能不如更大的模型
- 缺乏对更长输入设置(完整电影)的系统性实验
相关工作与启发¶
- vs MovieQA / TVQA:这些经典基准使用多选题、依赖人工标注,规模受限。本文使用开放式问答 + 自动构建,且引入了模态标注和无参考评估
- vs CinePile:CinePile 也是自动生成的大规模基准(303K QA),但仍使用多选题,且没有模态细分。本文虽然规模较小(8.2K),但在评估设计上更先进
- vs FactScore/VeriScore:这些文本 QA 中的事实性评估工作启发了本文的设计,但本文首次将原子事实评估扩展到 VideoQA 领域
评分¶
- 新颖性: ⭐⭐⭐⭐ 利用解说视频构建基准+无参考评估的组合思路新颖,但核心技术(LLM提取事实、LLM裁判)并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 7个模型+人类评估、多种评估指标对比、按模态/推理类型的详细分解分析
- 写作质量: ⭐⭐⭐⭐⭐ 论文逻辑清晰,motivation推导自然,实验发现的表述精确有洞察力
- 价值: ⭐⭐⭐⭐ 为长视频多模态理解提供了重要的评估工具,"视觉感知是瓶颈"的发现对领域有指导意义
相关论文¶
- [CVPR 2026] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering
- [CVPR 2026] EgoPointVQA: Gesture-Based Egocentric Video Question Answering
- [NeurIPS 2025] EgoGazeVQA: Egocentric Gaze-Guided Video Question Answering Benchmark
- [CVPR 2026] Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering
- [CVPR 2026] MINERVA-Cultural: A Benchmark for Cultural and Multilingual Long Video Reasoning