Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention¶

会议: NEURIPS2025
arXiv: 2512.24323
代码: 待确认
领域: segmentation / causal_inference
关键词: 自中心RVOS, 因果推断, 后门调整, 前门调整, 深度引导, 去偏

一句话总结¶

提出CERES框架，通过双模态因果干预解决自中心指代视频分割(Ego-RVOS)中的鲁棒性问题：对语言偏见用后门调整（消除目标-动作频率偏差），对视觉混淆用前门调整（以深度信息引导视觉中介变量聚合），在VISOR/VOST/VSCOS上达到SOTA。

任务定义：Ego-RVOS需要根据自然语言查询（如"knife used to cut carrot"）在第一人称视频中分割参与动作的特定物体。
核心痛点：现有方法学到伪相关而非因果关系——(1) 数据集中某些物体-动作对出现频率不均造成语言偏见；(2) 自中心视角的快速运动、遮挡等视觉混淆因子导致模型不鲁棒。
因果视角：用结构因果模型(SCM)形式化问题：语言偏见是可观测混淆变量Z（后门路径 \(\mathcal{T} \leftarrow \mathcal{Z} \rightarrow \mathcal{Y}\)），视觉混淆是不可观测混淆变量U（前门路径 \(\mathcal{X} \leftarrow \mathcal{U} \rightarrow \mathcal{Y}\)）。

CERES是即插即用框架，包含两个去混淆模块：语言后门去混淆器(LBD) + 视觉前门去混淆器(VFD)，附加到预训练RVOS骨架上。

构建混淆变量字典：从训练集统计所有唯一目标-动作对 \((z_i)\) 及其频率 \(P(z_i)\)
计算去偏文本表征：\(\mathbf{f}'_\mathcal{T}(t) = \mathbf{f}_\mathcal{T}(t) + \bar{\mathbf{f}}_\mathcal{Z}\)，其中 \(\bar{\mathbf{f}}_\mathcal{Z} = \sum P(z_i)\mathbf{f}_\mathcal{Z}(z_i)\)
基于NWGM近似实现Pearl后门调整公式

中介变量设计：将视觉信息分解为语义视觉特征 \(\mathcal{M}_v\)（RGB编码器）和几何深度特征 \(\mathcal{M}_d\)（单目深度估计编码器）
DAttn（深度引导注意力）：用深度特征作为Query、视觉特征作为Key/Value做交叉注意力——深度对自中心混淆更鲁棒
MAttn（记忆注意力）：用滑动窗口记忆库估计一般视觉上下文 \(\hat{\mathbf{X}}_t\)
最终通过门控残差连接融合：\(\mathbf{f}'_\mathcal{X} = \sigma \cdot \text{MLP}([\hat{\mathbf{M}}; \hat{\mathbf{X}}]) + (1-\sigma) \cdot \mathbf{X}_t\)

方法	骨架	mIoU⊕↑	cIoU⊕↑	mIoU⊖↓	gIoU↑	Acc↑
ReferFormer	R101	59.9	66.4	30.5	55.3	58.6
ActionVOS	R101	59.9	67.2	16.3	69.9	73.4
CERES	R101	64.0	72.8	15.3	72.4	76.3