Cross-modal Causal Relation Alignment for Video Question Grounding¶
会议: CVPR 2025
arXiv: 2503.07635
代码: https://github.com/WissingChen/CRA-GQA
领域: 视频理解
关键词: 视频问答定位、因果推断、跨模态对齐、高斯平滑、前门干预
一句话总结¶
通过因果干预消除视频问答定位(VideoQG)中的虚假跨模态关联,引入高斯平滑定位、跨模态对齐和显式因果干预三个模块,在 NextGQA 上同时提升定位(+2.2 Acc@GQA)和问答(+0.9 Acc@VQA)性能。
研究背景与动机¶
领域现状:视频问答定位(VideoQG)要求模型同时回答关于视频的问题并定位答案对应的时间段。现有方法存在"不忠实"问题——模型可能通过语言捷径(如问题中的关键词)猜对答案,但定位到错误的时间段。
现有痛点:(1) 后验分析方法(如 post-hoc attention analysis)定位质量差。(2) 端到端方法容易学到虚假关联——语言偏置(某些问题类型倾向于特定答案)和视觉混杂(无关视觉信息干扰定位)两种偏差并存。
核心矛盾:模型需要同时理解"回答什么"和"在哪里找到答案",但两者的优化目标可能冲突——捷径可以辅助回答但破坏定位。
本文目标 从因果推理角度同时消除语言和视觉偏差,使模型基于正确的因果关系做定位和回答。
切入角度:构建因果图将视频、问题、答案和定位之间的因果关系显式建模,通过前门干预(视觉去混杂)和后门干预(语言去混杂)消除虚假关联。
核心 idea:用高斯平滑注意力做时序定位,用双向对比学习做跨模态对齐,用前门/后门因果干预消除视觉/语言偏差。
方法详解¶
整体框架¶
视频+问题 → CLIP/RoBERTa 编码 → GSG 模块通过高斯滤波交叉注意力做时序定位 → CMA 模块用双向 InfoNCE 对齐定位区域与问答特征 → ECI 模块用前门干预去视觉混杂、后门干预去语言偏差 → 同时输出答案和时间段。
关键设计¶
-
高斯平滑定位(GSG):
- 功能:生成平滑的时序注意力分布用于定位
- 核心思路:视觉-语言交叉注意力 \(w = G(\text{MLP}(v \cdot l_g^T))\),其中 \(G\) 是可学习的高斯滤波器。高斯滤波抑制注意力图中的噪声尖峰,产生连续的时间段定位
- 设计动机:消融显示不用高斯平滑时 Acc@GQA 仅 16.4,加入后提升到 18.2(+1.8),IoU@0.5 从 8.0 到 10.6
-
跨模态对齐(CMA):
- 功能:确保定位区域与问答语义一致
- 核心思路:双向 InfoNCE 对比损失——将定位到的视觉段与正确答案拉近,与错误答案推远
- 设计动机:防止定位和回答脱节——模型可能定位到视觉显著但与答案无关的区域
-
显式因果干预(ECI):
- 功能:消除虚假关联的两种来源
- 核心思路:前门干预——用定位到的视频段作为中介变量,切断未定位区域对答案的直接影响。后门干预——构建语义结构图(主语、谓语、宾语,用 Stanza 解析),通过语义图的聚类特征近似混杂因子的分布来做去偏
- 设计动机:CRA 减少了 1.1% 的偏差错误和 1.4% 的不忠实回答
损失函数 / 训练策略¶
多任务损失:QA 分类损失 + 定位损失 + CMA 对比损失 + ECI 因果损失。32 帧视频输入,CLIP-L 冻结,RoBERTa 微调。
实验关键数据¶
主实验¶
| 方法 | Acc@GQA | Acc@VQA | mIoP | IoU@0.5 |
|---|---|---|---|---|
| Temp[CLIP] baseline | 16.0 | 60.2 | 25.7 | 8.9 |
| TimeCraft | 18.2 | - | 28.1 | 9.6 |
| CRA (Temp[CLIP]) | 18.2 | 61.1 | 28.6 | 10.6 |
消融实验¶
| 模块 | Acc@GQA | IoU@0.5 |
|---|---|---|
| Baseline | 16.0 | 8.9 |
| +GSG | 16.4 (+高斯) → 18.2 | 10.6 |
| +CMA | 进一步提升对齐 | - |
| +ECI | 减少 1.1% 偏差错误 | - |
关键发现¶
- 大模型定位反而差:FrozenBiLM 的 VQA 准确率高(70.2%)但定位质量不如小模型,说明更大的语言模型更容易走捷径
- 模板生成 QA 偏差更大:在 STAR 数据集(模板生成)上 CRA 改善更大,因为模板引入更系统性的虚假关联
亮点与洞察¶
- 因果推理框架用于 VideoQG 是首次,前门+后门双重干预覆盖了两种主要偏差源
- "大模型更不忠实"的发现值得关注——更强的语言建模能力可能加剧捷径学习
局限与展望¶
- 因果图假设了固定的变量关系,实际场景可能更复杂
- 语义结构图的质量依赖 Stanza 解析器
- 仅在 NextGQA 和 STAR 上验证,数据集规模有限
相关工作与启发¶
- vs TimeCraft:TimeCraft 也做时序定位但不考虑因果偏差。CRA 在 Acc@GQA 持平的同时 IoU 更好
- vs VGT / SeViLA:这些方法的定位精度更低(IoU@0.5 < 9%),CRA 达到 10.6%
评分¶
- 新颖性: ⭐⭐⭐⭐ 因果推理+视频定位的结合新颖
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、偏差分析、忠实性分析
- 写作质量: ⭐⭐⭐⭐ 因果图讲解清楚
- 价值: ⭐⭐⭐⭐ 对视频问答定位的可信度提升有重要意义
相关论文¶
- [ICCV 2025] OVG-HQ: Online Video Grounding with Hybrid-modal Queries
- [CVPR 2025] Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models
- [CVPR 2025] Temporal Alignment-Free Video Matching for Few-Shot Action Recognition
- [CVPR 2026] CVA: Context-aware Video-text Alignment for Video Temporal Grounding
- [NeurIPS 2025] PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?