Towards Unsupervised Domain Bridging via Image Degradation in Semantic Segmentation¶

会议: NeurIPS 2025
arXiv: 2412.10339
代码: 有
领域: Segmentation / Domain Adaptation
关键词: 无监督域适应, 语义分割, 扩散过程, 图像退化, 域桥接

一句话总结¶

提出 DiDA，通过将图像退化操作形式化为扩散前向过程来构建源域和目标域之间的连续中间域，结合语义偏移补偿机制，作为即插即用模块显著提升现有 UDA 语义分割方法的性能。

语义分割模型在跨域部署时面临严重的性能下降。虽然自训练（Self-Training）已成为 UDA 的主流范式（如 DAFormer、HRDA、MIC 系列），但这些方法忽略了域共享特征提取的显式建模。

从因果表示学习角度分析：观察到的特征 $x = \Phi(c, e)$，其中 $c$ 是决定类别身份的因果特征（如形状），$e$ 是域特定特征（如纹理）。由于 $e_S \neq e_T$，导致 $x_S \neq x_T$，阻碍了域不变特征的学习。

核心洞察来自扩散模型的前向过程：逐步添加噪声会按粒度顺序移除属性——细粒度的域特定属性（纹理）先丢失，粗粒度的域不变属性（形状）后丢失。这意味着退化操作创建的中间域分布的重叠区域可以作为域共享分布的先验。

但直接使用退化作为域桥接面临两大挑战：(1) 需要在宽范围退化级别下保持稳定的特征表示；(2) 退化不可避免地损害域不变特征，导致语义偏移问题。

DiDA 集成到标准自训练(ST) UDA 流程中，包含两个核心模块：(1) 基于退化的中间域构建，通过扩散前向过程创建连续中间域；(2) 语义偏移补偿，使用扩散编码器解耦并补偿退化引起的语义信息丢失。在推理时，仅使用骨干分割网络 $f_\theta = h \circ g$，无需额外计算开销。

基于退化的中间域构建 (Degradation-based Intermediate Domain Construction)：将扩散前向过程 $x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$ 产生的中间状态 $X_1, X_2, \ldots, X_T$ 视为中间域。随着时间步增大，不同域分布的重叠面积逐渐扩大，消除域特定属性。基于理论命题（属性丢失与时间步的单调关系），退化操作构建了从源/目标域到共享域的连续桥接。
语义偏移补偿 (Semantic Shift Compensation)：引入可训练的扩散编码器 $g'$，以时间嵌入模块条件化，对退化图像 $x_t$ 提取语义偏移信息： $$\hat{z}_{(t,i)} = z'_{(t,i)} (MLP_s^i \circ \text{Embed}(t) + 1) + MLP_b^i \circ \text{Embed}(t)$$ 通过残差连接在多层级上融合特征 $g + g'$，用重建损失 $\mathcal{L}^R = \|f_\theta(x_t, t) - \epsilon\|_2^2$ 监督。设计动机：时间嵌入使网络能精确解耦不同退化程度对应的语义损失，从而针对性地补偿。
退化图像一致性损失 (Degraded Image Consistency, DIC)： $$\mathcal{L}^D = \sum_{i}^{N_S} \mathcal{L}_{ce}(\bar{f}_\theta(x_{i,t}^S, t), y_i^S) + \sum_{i}^{N_T} \mathcal{L}_{ce}(\bar{f}_\theta(x_{i,t}^T, t), p_i^T, q^T)$$ 其中 $\bar{f}_\theta = h \circ (g + g')$，强制退化图像和原始图像的预测一致。

总训练损失为四项的加权和： $$\mathcal{L} = \mathcal{L}^S + \mathcal{L}^T + \lambda_D \mathcal{L}^D + \lambda_R \mathcal{L}^R$$

跨方法、跨架构的一致性提升 (mIoU)

方法	GTA→CS (CNN)	GTA→CS (Trans)	SYN→CS (CNN)	SYN→CS (Trans)	CS→ACDC (Trans)
DAFormer	56.0	68.3	54.7	60.9	55.4
+DiDA	58.3 (+2.3)	70.3 (+2.0)	57.6 (+2.9)	63.1 (+2.2)	59.1 (+3.7)
HRDA	63.0	73.8	61.2	65.8	68.0
+DiDA	64.3 (+1.3)	75.4 (+1.6)	62.6 (+1.4)	67.8 (+2.0)	70.7 (+2.7)
MIC	64.2	75.5	62.4	67.3	69.8
+DiDA	65.0 (+0.8)	76.8 (+1.3)	63.5 (+1.1)	68.6 (+1.3)	72.1 (+2.3)

GTA→CS (Transformer), 基于 DAFormer

$\mathcal{L}^D$	$\mathcal{L}^R$	$g_{time}$	$g'$	$h'$	mIoU
-	-	-	-	-	68.3
✓	-	-	-	-	66.5
✓	-	✓	-	-	69.5
✓	✓	✓	-	-	69.4
✓	✓	✓	-	✓	69.9
✓	✓	✓	✓	✓	70.3