VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection¶

会议: CVPR 2025
arXiv: 2411.14794
代码: https://github.com/hshjerry/VideoEspresso
领域: 视频理解
关键词: 视频问答, 链式思维, 核心帧选择, 多模态推理, 数据集

一句话总结¶

本文提出VideoEspresso数据集及混合LVLM协作框架，通过语义感知的冗余去除构建高质量视频QA对，并引入多模态链式思维（CoT）标注，结合轻量帧选择器和两阶段推理模型实现高效精准的视频推理。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）在视频理解上取得进展，但在复杂视频推理任务上表现仍不理想，主要受限于高质量大规模数据集的匮乏。
现有痛点：现有VideoQA数据集要么依赖昂贵的人工标注且粒度不足，要么自动构建方法存在逐帧分析的冗余问题，限制了可扩展性和复杂推理训练的有效性。
核心矛盾：视频内容高度冗余，关键信息分布稀疏——逐帧分析计算昂贵且信息过载，而仅用元数据则丢失细节。
本文目标：构建一个保留空间细节和时间连贯性的细粒度推理VideoQA数据集，并设计高效利用该数据集的框架。
切入角度：先将视频帧映射到语言空间，基于语义相似度去除冗余帧，再用GPT-4o从精简描述中生成QA对和CoT标注。
核心idea：语义驱动的视频信息压缩 + 多模态CoT标注 + 轻量-重量模型协作推理框架。

方法详解¶

整体框架¶

原始视频 → InternVL2-8B帧级描述 → BGE-M3语义去冗余 → 连续分组(每组15帧描述) → GPT-4o生成QA对 → GPT-4o提取CoT证据+核心帧+关键物体 → GroundingDINO空间标注 + BGE-M3时间标注 → 多模态CoT数据集。推理框架：轻量LVLM(1B)+LLM(0.5B)帧选择器 → 两阶段微调推理LVLM。

关键设计¶

语义感知冗余去除:
- 功能：从视频中提取最精简且保留关键信息的帧序列。
- 核心思路：先用LVLM对采样帧生成文本描述，然后用BGE-M3计算相邻帧描述的语义相似度，对余弦相似度超过阈值 \(\tau\) 的相邻帧执行LIFO过滤。不同于基于图像表示的关键帧提取，这里在语言空间进行语义过滤。
- 设计动机：传统基于视觉特征的关键帧提取可能保留视觉相似但语义不同的帧，在语义空间去重更准确。
多模态CoT标注流水线:
- 功能：为每个QA对标注多模态推理证据，包含时间和空间维度的关键信息。
- 核心思路：(1) GPT-4o从帧描述组中选出与问题最相关的核心帧描述；(2) 提取关键物体；(3) 组织为证据文本。空间标注用GroundingDINO标注边界框 + CLIP验证一致性；时间标注用BGE-M3检索匹配原始帧获取时间戳。
- 设计动机：仅有文本级CoT不够，需要时空维度的多模态证据来支持复杂视频推理。
混合LVLM协作推理框架:
- 功能：通过轻量选择器+强力推理器实现高效准确的视频推理。
- 核心思路：第一阶段用1B参数LVLM为帧生成描述，0.5B参数LLM选出与问题最相关的核心帧；第二阶段用大LVLM进行两阶段SFT——Stage-1学习从核心帧提取证据（提示词："Please provide evidence..."），Stage-2学习基于证据回答问题（提示词："Please answer with evidence..."）。
- 设计动机：将证据生成和答案生成解耦，增强推理透明度和准确性；轻量选择器显著降低推理成本。

损失函数 / 训练策略¶

帧选择器使用标准SFT训练；推理LVLM使用两阶段SFT，第一阶段训练证据提取能力（提示词："Please provide evidence..."），第二阶段训练基于证据的问答能力（提示词："Please answer with evidence..."）。推理时先选帧再生成证据最后回答。最终数据集涵盖14个视频推理任务类别。

实验关键数据¶

主实验¶

模型	参数	平均得分 (14任务)	Causal	Theme	Behav.
GPT-4o	-	26.4	22.8	32.8	19.3
Qwen-VL-Max	-	26.0	21.4	26.2	26.3
LLaVA-1.5 (7B)	7B	24.2	17.1	26.2	21.1
VideoEspresso (ours)	7B	最优	-	-	-

消融实验¶

配置	关键指标	说明
Full (选择器+两阶段)	最优	完整框架
w/o 帧选择器 (均匀采样)	下降	核心帧选择重要
单阶段SFT	下降	两阶段解耦推理更优
w/o CoT标注	下降	多模态证据提升推理

关键发现¶

不同任务的关键帧间距分布差异巨大，证实均匀采样策略次优。
VideoEspresso的QA长度和词汇多样性远超MVBench，质量更高。
帧选择器作为即插即用模块可应用于任何LVLM前端，降低视频token长度。
两阶段训练中证据生成阶段对提升最终答案质量至关重要——GT-CoT证据使性能从34.13%跃升至72.95%（+38.82%）。
选择器采用InternVL2-1B+QwenLM-0.5B仅增加1.5B参数和0.37 GPU小时训练，将平均帧数从8帧降至2.36帧，推理内存减少26-28GB。
选择器可零样本迁移到GPT-4o和InternVL2上分别带来+2.59%和+1.46%的准确率提升，同时帧输入减少约85%。
对LongVA实现了98%的帧输入减少，虽然性能略降但计算开销大幅降低。

亮点与洞察¶

语义空间去冗余的思路：将视频帧先映射到语言空间再去重，比视觉特征层面去重更有效，因为语义相似的帧才真正冗余。
轻重模型协作：用小模型做帧选择、大模型做推理的设计非常实用，显著降低了计算成本。
两阶段推理解耦：先提取证据再回答的范式增加了推理的可解释性和准确性，可迁移到其他需要解释性推理的任务。
数据集规模与质量：14个推理任务覆盖因果推理、主题分析、行为理解等维度。整体方法7B参数在平均准确率上达34.1%，比开源最优InternVL2高+5.4%，比闭源GPT-4o高+7.7%。输入帧数仅为LongVA-DPO的1.8%，FLOPs仅为LLaVA-Next-interleave的14.74%。

局限与展望¶

数据生成依赖GPT-4o，成本仍然较高。
14个任务的分类可能不够细粒度，某些推理类型未被覆盖。
帧选择器的性能受限于轻量LVLM的描述质量。
未来可探索端到端训练帧选择器和推理器。
空间标注（GroundingDINO边界框）与时间标注（BGE-M3帧检索）的精度受限于各自工具的能力上限。
当视频内容在语义空间中变化缓慢（如监控视频）时，语义去冗余可能过度删帧。
InternVL2和LongVA-DPO在"主题分析"和"烹饪过程"任务上表现优异，可能源于预训练数据中类似数据的覆盖。
主观评估（逻辑一致性、事实性、准确性、简洁性）中，在简洁性上超越GPT-4o达5%。

评分¶

实现细节¶

语义去冗余使用BGE-M3编码器，余弦相似度阈值\(tau\)控制帧过滤粒度。 GroundingDINO标注边界框后用CLIP验证视觉-文本一致性。 - 新颖性: ⭐⭐⭐⭐ 多模态CoT标注和混合协作框架设计新颖 - 实验充分度: ⭐⭐⭐⭐ 14个任务评估全面，但部分消融不够详细 - 写作质量: ⭐⭐⭐⭐ 流水线描述清晰，图表丰富 - 价值: ⭐⭐⭐⭐ 对视频推理研究有重要贡献，数据集有长期使用价值