TOGA: Temporally Grounded Open-Ended Video QA with Weak Supervision¶

会议: ICCV 2025
arXiv: 2506.09445
代码: 未公开
领域: 视频理解 / 视频问答 / 时序定位
关键词: Video QA, 时序定位, 弱监督, 视觉语言模型, 多尺度时序建模

一句话总结¶

提出TOGA——一种弱监督条件下的视觉语言模型，通过多尺度视觉语言连接器和一致性约束生成伪时序标签，在无需任何时序标注的情况下联合生成开放式答案与时间定位，在NExT-GQA、MSVD-QA和ActivityNet-QA上取得SOTA。

研究背景与动机¶

视频问答（Video QA）要求模型不仅生成正确答案，还需在视频中定位支持答案的时间段，即grounded video QA。这一任务存在三大挑战：

时间标注成本高昂：获取精确的起止时间标注需要大量人力，现有方法如Grounded-VideoLLM依赖外部GPT-4生成标注或从ActivityNet-Captions借用标签，成本和噪声都不理想

open-ended vs. multiple-choice：之前的弱监督方法（如SeViLA、LLoVi）在推理时依赖选项候选来选择答案，限制了模型的开放生成能力；TOGA生成自由文本回答，难度更大

答案与定位的独立预测问题：现有方法分别预测答案和时间段（如后处理方式或独立模块），无法建模答案内容与时间窗口之间的依赖关系

TOGA的核心思路是：联合生成答案和时序定位（格式为 Answer [start, end]），并利用一致性约束在弱监督下生成高质量伪标签。

方法详解¶

整体框架¶

TOGA包含四个模块：

视觉编码器：冻结的CLIP-ViT-Large，对均匀采样的视频帧提取逐帧特征
文本编码器：冻结的LLM tokenizer + embedding层（Mistral-7B），生成token级文本特征
多尺度视觉语言连接器 (MS-VLC)：可训练，在两个时间分辨率上对齐视觉和文本特征
文本解码器：Mistral-7B Instruct，训练后联合生成答案和时序定位

多尺度视觉语言连接器 (MS-VLC)¶

MS-VLC是TOGA的核心创新之一。它在两个时间粒度上处理视频帧：

稀疏尺度（4帧）：捕获低频时序特征，适合定位长时间段事件
密集尺度（16帧）：捕获高频时序特征，适合定位短时间段事件

每个VLC模块由 RegNet + 3D卷积实现，两个尺度共享参数。多尺度处理策略借鉴了活动识别（SlowFast）和音频事件检测中的成功经验。

三阶段训练策略¶

TOGA采用渐进式多阶段训练，逐步获得定位能力：

Stage 1 — 视觉-文本对齐：仅训练MS-VLC模块。使用Video-ChatGPT的视频-文本对，包括视频描述、句子补全和问答任务。目标是让多尺度视频特征与文本特征对齐。

Stage 2 — 指令微调（时序引用）：训练MS-VLC + LLM解码器。核心是让模型理解带时间引用的prompt（如 What is the activity in [10, 20]?），并生成带时间定位的回答（如 A boy is running [10, 20]）。由于无真实标注，通过裁剪视频时间段生成伪标签：选定起止时间，将该段视为独立视频，用Stage 1的模型生成描述作为伪答案。

Stage 3 — 一致性约束精化：关键创新。通过一致性约束筛选高质量伪标签。具体而言，对于grounding问题 \(Q_g\)（如 What is the boy doing?）生成回答 Stands up [5, 10]，则构造对应的referring问题 \(Q_r\)（如 What does the boy do in [5, 10]?），期望回答一致（Stands up），并与ground truth答案对齐。这种双向一致性确保弱监督伪标签的可靠性。

损失函数¶

采用标准的next token prediction损失（与语言模型一致），在不同阶段使用不同的prompt格式： - 仅答案：answer - 仅定位：[<<<start>>>, <<<end>>>] - 答案+定位：answer [<<<start>>>, <<<end>>>]

实验¶

数据集与指标¶

数据集	任务	特点
NExT-GQA	弱监督Grounded QA	长视频（平均40s），因果+时序问题
ReXTime	零样本Grounding	跨时间段因果推理
MSVD-QA	开放式QA	1970视频，50K+ QA对
ActivityNet-QA	开放式QA	5800视频，58K QA对

主实验结果¶

表1：NExT-GQA弱监督Grounded QA

方法	开放式	mIoU	IoU@0.5	mIoP	IoP@0.5	Acc@GQA
SeViLA	✗	21.7	13.8	29.5	22.9	16.6
LLoVi	✗	20.0	15.3	37.3	36.9	24.3
Grounded-VideoLLM	✗	21.1	18.0	34.5	34.4	26.7
TOGA	✓	24.4	21.1	40.5	40.6	24.6

TOGA在开放式（更高难度）设置下仍超越所有closed-set方法。mIoU比最佳方法+3.3pp，IoP@0.5达到40.6%。

表3：开放式Video QA

方法	MSVD-QA Acc	MSVD-QA Score	ActivityNet-QA Acc	ActivityNet-QA Score
Video-LLaVA	70.7	3.9	45.3	3.3
Video-LLaMA2	70.9	3.8	50.2	3.3
TOGA	73.8	3.9	52.0	3.4

消融实验¶

表4：多尺度VLC的重要性（NExT-GQA, IoU）

模型	All	Short	Medium	Long
仅稀疏	20.0	16.2	28.9	47.5
仅密集	22.1	18.3	32.2	32.1
多尺度(MS-VLC)	24.4	20.5	34.7	49.3

多尺度对短事件和长事件提升最明显——稀疏尺度擅长定位长时间段，密集尺度擅长短时间段，二者互补。

一致性约束的作用：移除Stage 3（仅用伪标签训练），mIoU从24.4骤降至12.1，证明一致性约束是弱监督定位成功的关键。

表5：问题类型分析（Acc@GQA）

因果-Why	因果-How	时序-Present	时序-Past	时序-Future
26.1	27.4	23.4	18.0	18.1

时序问题（尤其past/future）显著难于因果问题，需更强的长期推理能力。

亮点与洞察¶

弱监督+开放式+联合生成三重挑战的统一解法：不依赖外部模型或标注数据库，纯自举式训练
一致性约束是巧妙的自监督信号：grounding问题和referring问题的答案互相验证，过滤噪声伪标签
联合生成优于分离预测：模型可根据答案内容调整时间窗口，捕获答案与定位间的相关性
推理效率高：平均0.6秒/样本（A100 GPU），适合实际应用

局限性¶

开放式答案在标准评估指标下可能被低估（语义等价但文本不匹配的答案被判错）
时序问题（past/future类型）准确率仍较低，长距离时序推理有提升空间
伪标签质量受限于Stage 1模型的描述能力，对复杂场景（多人交互、快速动作变化）可能不够准确
仅在40秒级别视频上验证，对更长视频（数分钟以上）的泛化能力未知

评分¶

创新性：⭐⭐⭐⭐ — 一致性约束的伪标签策略是弱监督grounded QA的新范式
实用性：⭐⭐⭐⭐ — 零标注需求降低了部署门槛
实验充分度：⭐⭐⭐⭐ — 多数据集+详细消融+问题类型分析
写作质量：⭐⭐⭐⭐ — 动机清晰，方法描述详尽