ViTED: Video Temporal Evidence Distillation¶

会议: CVPR 2025
arXiv: 2503.12855
代码: 无
领域: Video Understanding
关键词: 视频问答, 证据链推理, 时间定位, 链式思维, 知识蒸馏

一句话总结¶

ViTED提出一个自动生成时间定位证据链的框架，将证据收集、时间基准定位和问答推理统一到单一视频语言模型中，通过证据蒸馏提升复杂视频问答能力。

研究背景与动机¶

视频问答（VideoQA）是视频理解的核心任务。现有视频大模型的两个关键限制：

均匀采样导致关键帧遗漏：模型以固定间隔采样固定数量的帧，可能遗漏视频中不均匀分布的关键证据（如某个短暂的挥手动作）
缺乏时间定位和多步推理能力：模型无法将证据与视频中的具体时间段关联，无法进行"先找证据→再推理→再回答"的多步推理

例如回答"婴儿为什么把手放进嘴里？"需要:（1）定位妈妈用勺子喂食的片段；（2）观察婴儿不适的表情；（3）推理出婴儿试图把食物弄出来。现有模型无法完成这种链式推理。

现有的时间基准定位模型虽然能定位特定描述的时间段，但需要提前知道要定位什么——它们无法从问题出发自主识别和定位相关证据。

方法详解¶

整体框架¶

ViTED包含三个阶段：(1) 证据池生成：将视频分为多层级多粒度片段，用VLM为每个片段生成与问题相关的描述；(2) 证据链搜索：用LLM通过beam search在证据池中搜索最能支持正确答案的证据链序列；(3) 证据蒸馏训练：将搜索到的证据链加入训练数据，训练模型同时生成证据链和答案。

关键设计¶

1. 多层级证据池生成（Hierarchical Evidence Pool）

功能：从视频中全面提取不同时间尺度的潜在证据，覆盖全局上下文到细粒度局部动作
核心思路：将视频在 \(N=5\) 个层级进行非均匀分割，\((L,S) \in \{(1/16, 1/16), (1/8, 1/16), (1/4, 1/8), (1/2, 1/4), (1, 1)\}\)。对每个片段用LLaMA-3.2-Vision-11B生成与问题相关的描述，形成证据池 \(E = \{(t_s, t_e, \epsilon)_i\}\)
设计动机：证据在视频中不均匀分布（一个全局活动 vs 一个短暂动作），需要多粒度覆盖。非均匀分割比均匀采样更不容易遗漏关键信息

2. 证据链搜索与精炼（Evidence Chain Search）

功能：从大量噪声证据中找到最能推导出正确答案的证据链序列
核心思路：先用LLM缩小证据池 \(E \rightarrow E^*\)（保留top-K），再进行beam search：初始化宽度 \(W=K/2\) 的beam，迭代添加新证据到链中，计算 \(P(A|Q, C_i \oplus ev_j)\) 并保留top-W链。收敛后对最优链进行LLM摘要，使其具有时序因果连贯性。最后过滤保留能正确推导答案的链
设计动机：单个证据只提供部分信息，需要组合多条证据形成推理链。Beam search在效率和质量间取得平衡

3. 课程式证据蒸馏训练

功能：将证据链的生成和推理能力蒸馏到单一VLM中
核心思路：两阶段训练——Stage-1标准指令微调（Q→A），Stage-2证据蒸馏（Q→Evidence Chain + A）。训练时使用next token prediction交叉熵损失。推理时模型先生成带时间戳的证据链，再基于证据回答问题
设计动机：课程学习避免一开始就学习复杂任务。先学基础问答能力，再学证据推理

损失函数¶

标准的next token prediction交叉熵损失，分别在Stage-1（答案token）和Stage-2（证据链+答案token）上优化。

实验关键数据¶

主实验：VideoQA基准对比（7B模型）¶

方法	CinePile	PerceptionTest	NExT-QA	STAR	NExT-GQA
LLaMA-3.2V (11B)	39.55	52.65	67.58	45.62	11.64
LLaVA-OneVision	46.42	-	-	-	-
SeViLA (4B)	-	-	73.8	64.9	16.6
ViTED	48.2	64.8	80.1	66.2	22.4

消融实验：证据蒸馏的影响¶

训练方式	NExT-QA	NExT-GQA
无CoT	75.3	14.2
+ "step-by-step" prompt	76.1	15.1
+ 证据蒸馏 (ViTED)	80.1	22.4

关键发现¶

ViTED在NExT-GQA（时间定位问答）上以零样本方式超越GPT-4驱动的Agent方法，证明蒸馏后的模型内化了时间定位能力
人类评估显示ViTED生成的证据链质量远高于基线VLM的推理解释
NExT-QA中54%的问题需要定位和推理一个或多个时间窗口，证据链方法在这类问题上优势最大
证据链平均包含2-3个hop，需要在视频的不同时间位置收集不同粒度的线索
简单的"step-by-step"提示效果有限（+0.8%），真正的证据蒸馏带来显著提升（+4.8%）

亮点与洞察¶

将CoT从文本域扩展到视频域：不是简单的文本推理链，而是带时间戳的视频证据链，每条证据关联到视频的具体时间段
自动化数据生成流水线：无需人工标注即可从现有VideoQA数据集生成高质量证据链训练数据
单模型替代Agent系统：通过蒸馏将多模块Agent的能力（证据收集+定位+推理）压缩到单次前向传播中

局限与展望¶

证据池生成依赖外部VLM（LLaMA-3.2-Vision），其质量直接影响下游效果
beam search的计算开销较大，不适合实时应用
当前仅处理已有QA对的数据增强，未探索开放式问题
未来可探索在线证据搜索（推理时动态搜索而非依赖训练时蒸馏的知识）

评分¶

⭐⭐⭐⭐

首次将带时间定位的证据链推理引入视频问答，自动化数据生成流水线设计精巧。在多个benchmark上SOTA，特别是NExT-GQA上超越GPT-4 Agent。技术路线完整且可复现。主要局限在于训练和数据生成的计算开销。