Cross-modal Causal Relation Alignment for Video Question Grounding¶

会议: CVPR 2025
arXiv: 2503.07635
代码: https://github.com/WissingChen/CRA-GQA
领域: 视频理解
关键词: 视频问答定位、因果推断、跨模态对齐、高斯平滑、前门干预

一句话总结¶

通过因果干预消除视频问答定位（VideoQG）中的虚假跨模态关联，引入高斯平滑定位、跨模态对齐和显式因果干预三个模块，在 NextGQA 上同时提升定位（+2.2 Acc@GQA）和问答（+0.9 Acc@VQA）性能。

领域现状：视频问答定位（VideoQG）要求模型同时回答关于视频的问题并定位答案对应的时间段。现有方法存在"不忠实"问题——模型可能通过语言捷径（如问题中的关键词）猜对答案，但定位到错误的时间段。

现有痛点：(1) 后验分析方法（如 post-hoc attention analysis）定位质量差。(2) 端到端方法容易学到虚假关联——语言偏置（某些问题类型倾向于特定答案）和视觉混杂（无关视觉信息干扰定位）两种偏差并存。

核心矛盾：模型需要同时理解"回答什么"和"在哪里找到答案"，但两者的优化目标可能冲突——捷径可以辅助回答但破坏定位。

本文目标 从因果推理角度同时消除语言和视觉偏差，使模型基于正确的因果关系做定位和回答。

切入角度：构建因果图将视频、问题、答案和定位之间的因果关系显式建模，通过前门干预（视觉去混杂）和后门干预（语言去混杂）消除虚假关联。

核心 idea：用高斯平滑注意力做时序定位，用双向对比学习做跨模态对齐，用前门/后门因果干预消除视觉/语言偏差。

视频+问题 → CLIP/RoBERTa 编码 → GSG 模块通过高斯滤波交叉注意力做时序定位 → CMA 模块用双向 InfoNCE 对齐定位区域与问答特征 → ECI 模块用前门干预去视觉混杂、后门干预去语言偏差 → 同时输出答案和时间段。

高斯平滑定位（GSG）:
- 功能：生成平滑的时序注意力分布用于定位
- 核心思路：视觉-语言交叉注意力 \(w = G(\text{MLP}(v \cdot l_g^T))\)，其中 \(G\) 是可学习的高斯滤波器。高斯滤波抑制注意力图中的噪声尖峰，产生连续的时间段定位
- 设计动机：消融显示不用高斯平滑时 Acc@GQA 仅 16.4，加入后提升到 18.2（+1.8），IoU@0.5 从 8.0 到 10.6
跨模态对齐（CMA）:
- 功能：确保定位区域与问答语义一致
- 核心思路：双向 InfoNCE 对比损失——将定位到的视觉段与正确答案拉近，与错误答案推远
- 设计动机：防止定位和回答脱节——模型可能定位到视觉显著但与答案无关的区域
显式因果干预（ECI）:
- 功能：消除虚假关联的两种来源
- 核心思路：前门干预——用定位到的视频段作为中介变量，切断未定位区域对答案的直接影响。后门干预——构建语义结构图（主语、谓语、宾语，用 Stanza 解析），通过语义图的聚类特征近似混杂因子的分布来做去偏
- 设计动机：CRA 减少了 1.1% 的偏差错误和 1.4% 的不忠实回答

多任务损失：QA 分类损失 + 定位损失 + CMA 对比损失 + ECI 因果损失。32 帧视频输入，CLIP-L 冻结，RoBERTa 微调。

方法	Acc@GQA	Acc@VQA	mIoP	IoU@0.5
Temp[CLIP] baseline	16.0	60.2	25.7	8.9
TimeCraft	18.2	-	28.1	9.6
CRA (Temp[CLIP])	18.2	61.1	28.6	10.6