Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention¶
会议: NEURIPS2025
arXiv: 2512.24323
代码: 待确认
领域: segmentation / causal_inference
关键词: 自中心RVOS, 因果推断, 后门调整, 前门调整, 深度引导, 去偏
一句话总结¶
提出CERES框架,通过双模态因果干预解决自中心指代视频分割(Ego-RVOS)中的鲁棒性问题:对语言偏见用后门调整(消除目标-动作频率偏差),对视觉混淆用前门调整(以深度信息引导视觉中介变量聚合),在VISOR/VOST/VSCOS上达到SOTA。
背景与动机¶
- 任务定义:Ego-RVOS需要根据自然语言查询(如"knife used to cut carrot")在第一人称视频中分割参与动作的特定物体。
- 核心痛点:现有方法学到伪相关而非因果关系——(1) 数据集中某些物体-动作对出现频率不均造成语言偏见;(2) 自中心视角的快速运动、遮挡等视觉混淆因子导致模型不鲁棒。
- 因果视角:用结构因果模型(SCM)形式化问题:语言偏见是可观测混淆变量Z(后门路径 \(\mathcal{T} \leftarrow \mathcal{Z} \rightarrow \mathcal{Y}\)),视觉混淆是不可观测混淆变量U(前门路径 \(\mathcal{X} \leftarrow \mathcal{U} \rightarrow \mathcal{Y}\))。
方法详解¶
整体框架¶
CERES是即插即用框架,包含两个去混淆模块:语言后门去混淆器(LBD) + 视觉前门去混淆器(VFD),附加到预训练RVOS骨架上。
关键设计1: 语言后门调整 (LBD)¶
- 构建混淆变量字典:从训练集统计所有唯一目标-动作对 \((z_i)\) 及其频率 \(P(z_i)\)
- 计算去偏文本表征:\(\mathbf{f}'_\mathcal{T}(t) = \mathbf{f}_\mathcal{T}(t) + \bar{\mathbf{f}}_\mathcal{Z}\),其中 \(\bar{\mathbf{f}}_\mathcal{Z} = \sum P(z_i)\mathbf{f}_\mathcal{Z}(z_i)\)
- 基于NWGM近似实现Pearl后门调整公式
关键设计2: 视觉前门调整 (VFD)¶
- 中介变量设计:将视觉信息分解为语义视觉特征 \(\mathcal{M}_v\)(RGB编码器)和几何深度特征 \(\mathcal{M}_d\)(单目深度估计编码器)
- DAttn(深度引导注意力):用深度特征作为Query、视觉特征作为Key/Value做交叉注意力——深度对自中心混淆更鲁棒
- MAttn(记忆注意力):用滑动窗口记忆库估计一般视觉上下文 \(\hat{\mathbf{X}}_t\)
- 最终通过门控残差连接融合:\(\mathbf{f}'_\mathcal{X} = \sigma \cdot \text{MLP}([\hat{\mathbf{M}}; \hat{\mathbf{X}}]) + (1-\sigma) \cdot \mathbf{X}_t\)
实验关键数据¶
VISOR数据集¶
| 方法 | 骨架 | mIoU⊕↑ | cIoU⊕↑ | mIoU⊖↓ | gIoU↑ | Acc↑ |
|---|---|---|---|---|---|---|
| ReferFormer | R101 | 59.9 | 66.4 | 30.5 | 55.3 | 58.6 |
| ActionVOS | R101 | 59.9 | 67.2 | 16.3 | 69.9 | 73.4 |
| CERES | R101 | 64.0 | 72.8 | 15.3 | 72.4 | 76.3 |
- CERES在所有骨架(R101/VSwinB/VSwinT)上一致超越ActionVOS
- 在VOST和VSCOS数据集上也达到新SOTA
消融实验¶
- 仅LBD(语言去偏):gIoU +3.9
- 仅VFD(视觉去偏):gIoU +5.2
- LBD+VFD:gIoU +7.1(互补效果)
- 深度引导 vs 无深度:mIoU⊕ +2.3
亮点¶
- 因果推断×视频分割:首个将后门+前门双调整统一应用于RVOS的框架
- 深度信息作为鲁棒中介:利用几何结构对自中心混淆变量的相对不变性
- 即插即用:可直接附加到任意预训练RVOS骨架上
- 理论接地:各模块有明确的因果推断理论依据
局限性 / 可改进方向¶
- NWGM近似和得分可加性假设可能不够精确
- 深度估计器(预训练单目模型)本身在自中心场景可能不可靠
- 滑动窗口假设短程平稳——对快速场景切换可能失效
- 仅验证在自中心场景,未测试第三人称RVOS
与相关工作的对比¶
- vs ActionVOS:ActionVOS用专用损失关注active objects但不处理偏见;CERES从因果角度系统性去偏
- vs GOAT:GOAT处理vision/language/action history混淆但不用于RVOS;CERES是首个针对RVOS的因果框架
- vs 一般因果学习:现有方法通常只用后门或前门之一,CERES双管齐下
启发与关联¶
- 因果推断为多模态任务提供了系统性去偏的理论工具
- 深度信息作为"鲁棒中介"的思路可迁移到其他自中心/遮挡场景
- 记忆库+注意力估计视觉上下文的方法对长视频理解有借鉴价值
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 因果推断与RVOS的创新结合
- 实验充分度: ⭐⭐⭐⭐ 多数据集+多骨架+消融
- 写作质量: ⭐⭐⭐⭐ SCM建模清晰,理论推导严谨
- 价值: ⭐⭐⭐⭐ 对鲁棒自中心视频理解有重要参考