跳转至

Cross-modal Causal Relation Alignment for Video Question Grounding

会议: CVPR 2025
arXiv: 2503.07635
代码: https://github.com/WissingChen/CRA-GQA
领域: 视频理解
关键词: 视频问答定位、因果推断、跨模态对齐、高斯平滑、前门干预

一句话总结

通过因果干预消除视频问答定位(VideoQG)中的虚假跨模态关联,引入高斯平滑定位、跨模态对齐和显式因果干预三个模块,在 NextGQA 上同时提升定位(+2.2 Acc@GQA)和问答(+0.9 Acc@VQA)性能。

研究背景与动机

领域现状:视频问答定位(VideoQG)要求模型同时回答关于视频的问题并定位答案对应的时间段。现有方法存在"不忠实"问题——模型可能通过语言捷径(如问题中的关键词)猜对答案,但定位到错误的时间段。

现有痛点:(1) 后验分析方法(如 post-hoc attention analysis)定位质量差。(2) 端到端方法容易学到虚假关联——语言偏置(某些问题类型倾向于特定答案)和视觉混杂(无关视觉信息干扰定位)两种偏差并存。

核心矛盾:模型需要同时理解"回答什么"和"在哪里找到答案",但两者的优化目标可能冲突——捷径可以辅助回答但破坏定位。

本文目标 从因果推理角度同时消除语言和视觉偏差,使模型基于正确的因果关系做定位和回答。

切入角度:构建因果图将视频、问题、答案和定位之间的因果关系显式建模,通过前门干预(视觉去混杂)和后门干预(语言去混杂)消除虚假关联。

核心 idea:用高斯平滑注意力做时序定位,用双向对比学习做跨模态对齐,用前门/后门因果干预消除视觉/语言偏差。

方法详解

整体框架

视频+问题 → CLIP/RoBERTa 编码 → GSG 模块通过高斯滤波交叉注意力做时序定位 → CMA 模块用双向 InfoNCE 对齐定位区域与问答特征 → ECI 模块用前门干预去视觉混杂、后门干预去语言偏差 → 同时输出答案和时间段。

关键设计

  1. 高斯平滑定位(GSG):

    • 功能:生成平滑的时序注意力分布用于定位
    • 核心思路:视觉-语言交叉注意力 \(w = G(\text{MLP}(v \cdot l_g^T))\),其中 \(G\) 是可学习的高斯滤波器。高斯滤波抑制注意力图中的噪声尖峰,产生连续的时间段定位
    • 设计动机:消融显示不用高斯平滑时 Acc@GQA 仅 16.4,加入后提升到 18.2(+1.8),IoU@0.5 从 8.0 到 10.6
  2. 跨模态对齐(CMA):

    • 功能:确保定位区域与问答语义一致
    • 核心思路:双向 InfoNCE 对比损失——将定位到的视觉段与正确答案拉近,与错误答案推远
    • 设计动机:防止定位和回答脱节——模型可能定位到视觉显著但与答案无关的区域
  3. 显式因果干预(ECI):

    • 功能:消除虚假关联的两种来源
    • 核心思路:前门干预——用定位到的视频段作为中介变量,切断未定位区域对答案的直接影响。后门干预——构建语义结构图(主语、谓语、宾语,用 Stanza 解析),通过语义图的聚类特征近似混杂因子的分布来做去偏
    • 设计动机:CRA 减少了 1.1% 的偏差错误和 1.4% 的不忠实回答

损失函数 / 训练策略

多任务损失:QA 分类损失 + 定位损失 + CMA 对比损失 + ECI 因果损失。32 帧视频输入,CLIP-L 冻结,RoBERTa 微调。

实验关键数据

主实验

方法 Acc@GQA Acc@VQA mIoP IoU@0.5
Temp[CLIP] baseline 16.0 60.2 25.7 8.9
TimeCraft 18.2 - 28.1 9.6
CRA (Temp[CLIP]) 18.2 61.1 28.6 10.6

消融实验

模块 Acc@GQA IoU@0.5
Baseline 16.0 8.9
+GSG 16.4 (+高斯) → 18.2 10.6
+CMA 进一步提升对齐 -
+ECI 减少 1.1% 偏差错误 -

关键发现

  • 大模型定位反而差:FrozenBiLM 的 VQA 准确率高(70.2%)但定位质量不如小模型,说明更大的语言模型更容易走捷径
  • 模板生成 QA 偏差更大:在 STAR 数据集(模板生成)上 CRA 改善更大,因为模板引入更系统性的虚假关联

亮点与洞察

  • 因果推理框架用于 VideoQG 是首次,前门+后门双重干预覆盖了两种主要偏差源
  • "大模型更不忠实"的发现值得关注——更强的语言建模能力可能加剧捷径学习

局限与展望

  • 因果图假设了固定的变量关系,实际场景可能更复杂
  • 语义结构图的质量依赖 Stanza 解析器
  • 仅在 NextGQA 和 STAR 上验证,数据集规模有限

相关工作与启发

  • vs TimeCraft:TimeCraft 也做时序定位但不考虑因果偏差。CRA 在 Acc@GQA 持平的同时 IoU 更好
  • vs VGT / SeViLA:这些方法的定位精度更低(IoU@0.5 < 9%),CRA 达到 10.6%

评分

  • 新颖性: ⭐⭐⭐⭐ 因果推理+视频定位的结合新颖
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、偏差分析、忠实性分析
  • 写作质量: ⭐⭐⭐⭐ 因果图讲解清楚
  • 价值: ⭐⭐⭐⭐ 对视频问答定位的可信度提升有重要意义

相关论文