跳转至

Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention

会议: NEURIPS2025
arXiv: 2512.24323
代码: 待确认
领域: segmentation / causal_inference
关键词: 自中心RVOS, 因果推断, 后门调整, 前门调整, 深度引导, 去偏

一句话总结

提出CERES框架,通过双模态因果干预解决自中心指代视频分割(Ego-RVOS)中的鲁棒性问题:对语言偏见用后门调整(消除目标-动作频率偏差),对视觉混淆用前门调整(以深度信息引导视觉中介变量聚合),在VISOR/VOST/VSCOS上达到SOTA。

背景与动机

  1. 任务定义:Ego-RVOS需要根据自然语言查询(如"knife used to cut carrot")在第一人称视频中分割参与动作的特定物体。
  2. 核心痛点:现有方法学到伪相关而非因果关系——(1) 数据集中某些物体-动作对出现频率不均造成语言偏见;(2) 自中心视角的快速运动、遮挡等视觉混淆因子导致模型不鲁棒。
  3. 因果视角:用结构因果模型(SCM)形式化问题:语言偏见是可观测混淆变量Z(后门路径 \(\mathcal{T} \leftarrow \mathcal{Z} \rightarrow \mathcal{Y}\)),视觉混淆是不可观测混淆变量U(前门路径 \(\mathcal{X} \leftarrow \mathcal{U} \rightarrow \mathcal{Y}\))。

方法详解

整体框架

CERES是即插即用框架,包含两个去混淆模块:语言后门去混淆器(LBD) + 视觉前门去混淆器(VFD),附加到预训练RVOS骨架上。

关键设计1: 语言后门调整 (LBD)

  • 构建混淆变量字典:从训练集统计所有唯一目标-动作对 \((z_i)\) 及其频率 \(P(z_i)\)
  • 计算去偏文本表征:\(\mathbf{f}'_\mathcal{T}(t) = \mathbf{f}_\mathcal{T}(t) + \bar{\mathbf{f}}_\mathcal{Z}\),其中 \(\bar{\mathbf{f}}_\mathcal{Z} = \sum P(z_i)\mathbf{f}_\mathcal{Z}(z_i)\)
  • 基于NWGM近似实现Pearl后门调整公式

关键设计2: 视觉前门调整 (VFD)

  • 中介变量设计:将视觉信息分解为语义视觉特征 \(\mathcal{M}_v\)(RGB编码器)和几何深度特征 \(\mathcal{M}_d\)(单目深度估计编码器)
  • DAttn(深度引导注意力):用深度特征作为Query、视觉特征作为Key/Value做交叉注意力——深度对自中心混淆更鲁棒
  • MAttn(记忆注意力):用滑动窗口记忆库估计一般视觉上下文 \(\hat{\mathbf{X}}_t\)
  • 最终通过门控残差连接融合:\(\mathbf{f}'_\mathcal{X} = \sigma \cdot \text{MLP}([\hat{\mathbf{M}}; \hat{\mathbf{X}}]) + (1-\sigma) \cdot \mathbf{X}_t\)

实验关键数据

VISOR数据集

方法 骨架 mIoU⊕↑ cIoU⊕↑ mIoU⊖↓ gIoU↑ Acc↑
ReferFormer R101 59.9 66.4 30.5 55.3 58.6
ActionVOS R101 59.9 67.2 16.3 69.9 73.4
CERES R101 64.0 72.8 15.3 72.4 76.3
  • CERES在所有骨架(R101/VSwinB/VSwinT)上一致超越ActionVOS
  • 在VOST和VSCOS数据集上也达到新SOTA

消融实验

  • 仅LBD(语言去偏):gIoU +3.9
  • 仅VFD(视觉去偏):gIoU +5.2
  • LBD+VFD:gIoU +7.1(互补效果)
  • 深度引导 vs 无深度:mIoU⊕ +2.3

亮点

  1. 因果推断×视频分割:首个将后门+前门双调整统一应用于RVOS的框架
  2. 深度信息作为鲁棒中介:利用几何结构对自中心混淆变量的相对不变性
  3. 即插即用:可直接附加到任意预训练RVOS骨架上
  4. 理论接地:各模块有明确的因果推断理论依据

局限性 / 可改进方向

  1. NWGM近似和得分可加性假设可能不够精确
  2. 深度估计器(预训练单目模型)本身在自中心场景可能不可靠
  3. 滑动窗口假设短程平稳——对快速场景切换可能失效
  4. 仅验证在自中心场景,未测试第三人称RVOS

与相关工作的对比

  • vs ActionVOS:ActionVOS用专用损失关注active objects但不处理偏见;CERES从因果角度系统性去偏
  • vs GOAT:GOAT处理vision/language/action history混淆但不用于RVOS;CERES是首个针对RVOS的因果框架
  • vs 一般因果学习:现有方法通常只用后门或前门之一,CERES双管齐下

启发与关联

  • 因果推断为多模态任务提供了系统性去偏的理论工具
  • 深度信息作为"鲁棒中介"的思路可迁移到其他自中心/遮挡场景
  • 记忆库+注意力估计视觉上下文的方法对长视频理解有借鉴价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 因果推断与RVOS的创新结合
  • 实验充分度: ⭐⭐⭐⭐ 多数据集+多骨架+消融
  • 写作质量: ⭐⭐⭐⭐ SCM建模清晰,理论推导严谨
  • 价值: ⭐⭐⭐⭐ 对鲁棒自中心视频理解有重要参考