Domain Generalized Stereo Matching with Uncertainty-guided Data Augmentation¶

会议: AAAI2026
arXiv: 2508.01303
代码: 待确认
领域: 3d_vision
关键词: stereo matching, domain generalization, data augmentation, uncertainty modeling, feature consistency

一句话总结¶

提出 UgDA-Stereo，通过对 RGB 图像逐通道均值和标准差施加基于批次统计量的高斯不确定性扰动来模拟多种未知域的视觉风格，并结合特征一致性约束，以即插即用方式显著提升立体匹配模型的跨域泛化能力。

背景与动机¶

立体匹配（Stereo Matching）是计算机视觉中的基础任务，目标是从校正后的图像对中估计稠密视差图，用于三维重建。当前 SOTA 深度立体匹配网络通常在合成数据（如 SceneFlow）上训练，但在真实场景中由于颜色、光照、对比度和纹理等域差异，泛化性能严重退化。

现有解决路线有两条：域适应（需要目标域数据）和域泛化（不需要目标域数据）。本文聚焦更具挑战性的单域泛化设定——仅用合成数据训练，在完全未见的真实域上测试。

过往域泛化方法要么需要修改网络架构（如 DSMNet 的域归一化层），要么依赖复杂的学习目标（如 ITSA 的信息论策略），要么需要额外模态（如深度先验蒸馏）。这些方法虽然有效但引入了不小的复杂度。本文试图从一个简单但关键的观察出发：图像 RGB 通道的统计量（均值和标准差）承载了域特征信息，通过合理扰动这些统计量就能生成新域的样本。

核心问题¶

在合成数据上训练的立体匹配网络会学到域相关的捷径特征（shortcut），无法在未见真实域上提取有意义的语义和结构特征
数据增强如何系统性地扩大样本分布，同时保证多样性和有效性
测试域可能引入方向和强度均不确定的域偏移，如何建模这种不确定性

方法详解¶

整体框架¶

UgDA-Stereo 是一个仅在训练时使用的即插即用模块，可集成到任何立体匹配网络中。整体流程：

对原始左右图像施加不确定性引导的数据增强，生成风格化图像
将增强后的图像对送入立体匹配网络得到视差估计
同时对原始和增强图像提取特征，施加特征一致性约束

不确定性引导的数据增强（UgDA）¶

核心思想：RGB 通道统计量（均值 \(\mu_c\) 和标准差 \(\sigma_c\)）反映域特征。对这些统计量施加扰动就能模拟域偏移。

具体步骤：

计算逐图像通道统计量：对每张图像在空间维度计算 RGB 各通道的均值 \(\mu_c(x)\) 和标准差 \(\sigma_c(x)\)
计算批次内统计量的变异：衡量一个批次内各图像统计量的方差 \(\sigma^2_{\mu_c}\) 和 \(\sigma^2_{\sigma_c}\)，它们反映了批次内图像间的外表差异，也为扰动提供了合理范围
高斯采样扰动：假设对均值的扰动服从 \(\mathcal{N}(0, \sigma^2_{\mu_c})\)，对标准差的扰动服从 \(\mathcal{N}(0, \sigma^2_{\sigma_c})\)，通过重参数化技巧采样得到新的统计量：
\(\mu'_c(x) = \mu_c(x) + \epsilon_{\mu_c} \cdot \sigma_{\mu_c}(x)\)，其中 \(\epsilon_{\mu_c} \sim \mathcal{N}(0,1)\)
\(\sigma'_c(x) = \sigma_c(x) + \epsilon_{\sigma_c} \cdot \sigma_{\sigma_c}(x)\)，其中 \(\epsilon_{\sigma_c} \sim \mathcal{N}(0,1)\)
生成增强图像：先将原始像素标准化，再用新的统计量进行反标准化：
\(x^*_{c,h,w} = \frac{x_{c,h,w} - \mu_c(x)}{\sigma_c(x)} \cdot \sigma'_c(x) + \mu'_c(x)\)

关键性质： - 仅改变全局逐通道统计量，局部纹理、边缘和几何内容保持不变 - 基于批次统计量建模不确定性，扰动方向和强度随机多样 - 对左右图像施加相同的增强操作，保证左右一致性

特征一致性约束¶

增强仅改变图像风格属性（亮度、色调、对比度），场景结构不变。因此引入特征一致性损失鼓励网络学习不依赖捷径的域不变表示：

\[\mathcal{L}_{cons} = \|f_{feat}(x_L) - f_{feat}(x^*_L)\|_2 + \|f_{feat}(x_R) - f_{feat}(x^*_R)\|_2\]

总损失函数¶

\[\mathcal{L} = \mathcal{L}_{smooth_{L_1}}(\hat{d}, d_{gt}) + \lambda \mathcal{L}_{cons}\]

其中 \(\lambda = 0.17\) 为超参数。

实验关键数据¶

实验设置¶

训练集：SceneFlow（35,454 对）
测试集：KITTI 2012、KITTI 2015、Middlebury（半分辨率）、ETH3D
基线网络：PSMNet、GwcNet、CFNet
训练配置：单块 RTX 4090，Adam 优化器，20 epochs，batch size=4

主要结果（D1 错误率）¶

方法	KITTI2015	KITTI2012	Middlebury	ETH3D
PSMNet	16.3%	15.1%	34.2%	23.8%
UgDA-PSMNet	5.3%	4.8%	8.5%	10.2%
GwcNet	22.7%	20.2%	37.9%	54.2%
UgDA-GwcNet	4.9%	4.2%	8.3%	5.7%
CFNet	6.0%	5.2%	15.4%	5.7%
UgDA-CFNet	5.2%	4.7%	8.2%	4.9%

UgDA-PSMNet 相比原始 PSMNet 在四个数据集上 D1 错误率下降 10.3%–25.7%；UgDA-GwcNet 下降幅度更大，达 16.0%–48.5%。

消融实验（D1 错误率）¶

增强	\(\mathcal{L}_{cons}\)	KITTI2012 (PSMNet)	KITTI2015 (PSMNet)
✗	✗	15.1%	16.3%
✓	✗	5.8%	6.1%
✓	✓	4.8%	5.3%

数据增强贡献了主要提升，特征一致性损失进一步带来约 1% 的额外增益。

DrivingStereo 天气鲁棒性¶

方法	晴天	多云	雨天	雾天	平均
PSMNet	62.5%	60.1%	60.5%	68.6%	63.9%
FT-PSMNet	4.0%	2.9%	11.5%	6.5%	6.3%
UgDA-PSMNet	4.2%	3.3%	6.5%	5.7%	4.9%

在未使用目标域数据的情况下，UgDA-PSMNet 在雨天和雾天场景中甚至超越了经过微调的基线。

亮点¶

极简但高效：整个方法仅在输入级别操作，不修改骨干网络，不需要额外模态，计算开销极低
理论直觉清晰：基于 RGB 统计量承载域特征这一观察，用高斯分布建模扰动不确定性，思路自然
通用即插即用：在三种不同架构（PSMNet、GwcNet、CFNet）上均取得一致的显著提升
恶劣天气鲁棒：在 DrivingStereo 多种天气条件下表现稳定，且不接触目标域数据就能超越微调版本

局限性 / 可改进方向¶

仅操作全局统计量：无法模拟局部域变化（如局部阴影、局部遮挡区域的风格差异），在精细区域可能表现受限
高斯假设的局限：真实域偏移可能不服从高斯分布，更复杂的分布建模（如混合高斯或 flow-based）可能进一步提升效果
遮挡和非朗伯表面：作者自己也指出，对遮挡区域和非朗伯表面（如透明/反光物体）的处理仍有提升空间
仅在 SceneFlow 上训练：未探索其他合成数据集（如 TartanAir）或合成数据组合的影响
特征一致性约束仅用 L2：可考虑更强的对比学习或互信息等约束方式

与相关工作的对比¶

方法	策略	是否需修改架构	是否需目标域数据
DSMNet	域归一化层	是	否
GraftNet	用大规模预训练特征	是	否
ITSA	信息论扰动 + 梯度对抗	否	否
HVT	多层级数据增强	否	否
Masked-Stereo	伪多任务（匹配+重建）	是	否
UgDA-Stereo	统计量扰动 + 特征一致性	否	否

UgDA-Stereo 的最大优势在于简单性——它不需要架构修改、不需要额外预训练模型、不需目标域数据，仅通过输入级的统计量扰动和一个辅助损失即可实现 SOTA 水平的跨域泛化。

启发与关联¶

域泛化的核心思路可迁移：通过扰动通道统计量模拟域偏移的思路并不限于立体匹配，可直接迁移到单目深度估计、光流估计、语义分割等密集预测任务
与 AdaIN/Style Transfer 的联系：增强公式本质上是一种逆标准化加随机重参数化，与 AdaIN 风格迁移有深层联系，提示可考虑结合更丰富的风格库
批次统计量作为不确定性来源：利用 mini-batch 内部的统计变异来驱动增强，这一思路简洁优雅，适合其他需要域多样性的场景

评分¶

新颖性: 3/5（统计量扰动思路有先例，但高斯不确定性建模和特征一致性结合有新意）
实验充分度: 4/5（四个标准 benchmark + 天气鲁棒性 + 消融 + 可视化，覆盖全面）
写作质量: 3/5（整体清晰，但部分公式排版和表述有小瑕疵）
价值: 4/5（即插即用、简单有效、实用性强，适合工程落地）