VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection¶

会议: CVPR 2025
arXiv: 2411.14794
代码: https://github.com/hshjerry/VideoEspresso
领域: LLM推理
关键词: 视频链式思维, 核心帧选择, 视频QA, 多模态推理, 数据集

一句话总结¶

VideoEspresso 构建了一个20万+的大规模视频CoT推理数据集（包含空间bounding box和时间grounding标注），并提出VideoQA-SC混合框架——用1.5B轻量级模型选择平均2.36个核心帧，再用8B推理模型进行两阶段证据提取+答案生成，以仅1.8%的帧数和14.7%的计算量超越了GPT-4o和所有开源LVLM。

研究背景与动机¶

领域现状：LVLM在多模态理解上取得了显著进展，但在视频推理任务上仍有不足，主要受限于高质量大规模VideoQA数据集的稀缺。

现有痛点：(1) 手动标注成本高且粒度不够细；(2) 自动构造方法采用逐帧分析，计算昂贵且引入大量冗余信息；(3) 现有视频CoT工作主要在文本层面做推理，忽视了视觉grounding（物体在哪？是哪一帧？）；(4) 现有LVLM处理视频时通常均匀采样大量帧（如128帧），计算开销巨大但大部分帧是冗余的。

核心矛盾：视频中信息高度冗余，但复杂推理又需要精确定位关键帧和关键物体。均匀采样浪费计算资源，过少采样则可能丢失关键信息。

本文目标 (1) 构建一个包含多模态CoT标注（空间+时间grounding）的大规模VideoQA数据集；(2) 设计高效的视频推理框架，用极少帧实现高质量推理。

切入角度：先用语义感知的方法去冗余和生成QA对，再用GPT-4o标注多模态CoT（核心帧+关键物体+证据链），最后训练一个"先选帧再推理"的混合框架。

核心 idea：用轻量模型选出2-3个核心帧，再用大模型做"提取证据→基于证据推理"的两阶段细粒度视频推理。

方法详解¶

整体框架¶

分数据构建和模型框架两部分：数据构建——从7个视频数据集收集视频，经自适应FPS采样 → InternVL2-8B帧描述 → BGE-M3语义去冗余 → GPT-4o生成QA对 → Claude/Gemini质量过滤 → GPT-4o标注多模态CoT（核心帧选择+关键物体提取+证据生成）→ GroundingDINO空间标注 + BGE-M3时间检索。模型框架（VideoQA-SC）——Stage 1: 轻量级Frame Selector（InternVL2-1B + Qwen-0.5B）选核心帧；Stage 2: 推理LVLM两阶段SFT——先训练证据提取，再训练基于证据的推理答案生成。

关键设计¶

语义感知帧去冗余:
- 功能：从视频中高效去除冗余帧，保留关键信息
- 核心思路：先自适应FPS采样（动态场景FPS 2-4，静态FPS 1），再用InternVL2-8B为每帧生成描述，通过BGE-M3模型计算相邻帧描述的语义相似度，去除相似度超过阈值τ的冗余帧（LIFO过滤策略）
- 设计动机：基于文本语义而非像素级差异来判断冗余，更能捕捉内容层面的变化
多模态CoT标注流水线:
- 功能：为每个QA对生成包含空间和时间grounding信息的推理链
- 核心思路：三步走——(1) GPT-4o从帧描述中选择与问题最相关的核心帧描述；(2) 从核心帧描述中提取关键物体作为证据；(3) 将关键物体组织成自然语言推理链。空间标注用GroundingDINO标记bounding box并用CLIP验证一致性，时间标注用BGE-M3语义检索匹配原始帧
- 设计动机：仅文本CoT缺乏视觉grounding，多模态CoT通过空间+时间定位让推理过程可追溯、可验证
VideoQA-SC混合LVLM协作框架:
- 功能：高效精准的视频推理
- 核心思路：Frame Selector——1B参数LVLM生成帧描述 + 0.5B参数LLM根据问题选择核心帧（平均仅2.36帧）。两阶段推理LVLM——Stage 1训练证据提取（"请提供有助于回答问题的证据"），Stage 2训练答案生成（"请结合证据回答问题"）。两阶段渐进式训练确保多模态信息的逐步整合
- 设计动机：分离帧选择和推理，用极小的模型做帧选择（节省计算），让大模型只处理最关键的2-3帧；两阶段SFT防止模型跳过证据直接猜答案

损失函数 / 训练策略¶

两阶段SFT均使用LoRA微调：lr分别为2e-5和1e-5，batch=16，8×A100，LoRA rank=16, alpha=32。输入分辨率224×224，max token 6144，1个epoch，cosine decay。

实验关键数据¶

主实验¶

模型	参数	帧数	TFLOPs	Avg Acc (14 tasks)
GPT-4o	-	FPS3	-	26.4%
Qwen-VL-Max	-	FPS3	-	26.0%
InternVL2-8B	8B	FPS1	73.2	28.7%
Qwen2-VL-7B	7B	FPS1	64.6	28.5%
LongVA-DPO-7B	7B	128帧	465.4	24.4%
VideoEspresso	8.5B	2.36帧	9.26	34.1%

主观评价（10分制总分）：

模型	逻辑性	事实性	准确性	简洁性	综合
GPT-4o	73.2	63.1	61.7	70.0	66.1
InternVL2	70.6	56.3	54.5	66.8	60.1
VideoEspresso	72.3	61.3	59.7	75.7	65.8

消融实验¶

配置	Accuracy	变化
Full model	34.13%	-
GT-CoT（oracle证据）	72.95%	+38.82%
w/o Bbox（去除空间标注）	33.14%	-0.99%
w/o CoT（去除推理链）	31.32%	-2.81%

核心帧选择器泛化性：

模型	均匀采样	+ Selector	变化
GPT-4o (16帧)	26.9%	29.5% (2.36帧)	+2.6%
InternVL2 (16帧)	28.6%	30.0% (2.36帧)	+1.4%

关键发现¶

仅2.36帧即可超越128帧方法：VideoEspresso用LongVA-DPO 1.8%的帧数和2%的FLOPs就超出了9.7%的准确率，证明了"精选少量帧"远优于"暴力多帧"
GT-CoT的巨大提升空间：使用ground truth证据可从34.1%飙升至73.0%（+38.8%），说明当前模型的证据提取能力还有极大改进空间
核心帧选择器可作为plug-and-play模块：直接插入GPT-4o可在帧数减少85%的同时提升2.6%准确率
简洁性上甚至超越GPT-4o：主观评价中简洁性得分75.7 vs GPT-4o的70.0，说明精选核心帧减少了冗余输出

亮点与洞察¶

"少即是多"的哲学在视频推理中效果惊人——2.36帧 > 128帧。核心帧选择器通过语义理解而非均匀采样实现了信息的极致压缩
两阶段"先证据后推理"的训练策略非常巧妙——避免了模型走"看题猜答案"的捷径，强制其先显式提取视觉证据
数据集构建流水线的自动化程度高：InternVL2帧描述→BGE-M3去冗余→GPT-4o生成QA→多LLM交叉验证→GroundingDINO空间标注，整体pipeline具有很好的可扩展性

局限与展望¶

GT-CoT实验表明自动标注的CoT质量仍有巨大提升空间（34.1% vs 72.9%）
测试集仅1382条，规模偏小，可能存在统计方差
选择器在某些模型上反而轻微降低性能（如LongVA -0.6%），说明选择器的泛化性还需提升
14个任务分布不均（因果推理8.7万 vs 烹饪步骤276），可能影响评估公平性

评分¶

新颖性: ⭐⭐⭐⭐ 多模态CoT标注和混合选帧-推理框架设计新颖，但各子模块（帧描述、语义检索等）是已有技术的组合
实验充分度: ⭐⭐⭐⭐ 14任务9模型的全面对比+消融+跨模型泛化性验证充分
写作质量: ⭐⭐⭐⭐ 流水线描述清晰，图表丰富
价值: ⭐⭐⭐⭐⭐ 20万高质量视频CoT数据集+高效推理框架，对视频理解研究具有重要推动作用