Balanced Learning for Domain Adaptive Semantic Segmentation¶

会议: ICML 2025
arXiv: 2512.06886
代码: https://github.com/Woof6/BLDA
领域: 语义分割
关键词: domain adaptation, semantic segmentation, class imbalance, logit calibration, self-training

一句话总结¶

提出 BLDA——通过分析网络预测的 logit 分布来直接量化类别偏差程度，用共享锚点分布对齐各类 logit 分布实现后处理校准，同时在自训练中用 GMM 在线估计并修正 logit 生成无偏伪标签，在 GTA→CS 和 SYN→CS 两个基准上为多种基线方法带来一致提升。

研究背景与动机¶

领域现状：无监督域自适应（UDA）语义分割旨在将有标注的源域知识迁移到无标注的目标域。自训练技术通过教师-学生框架生成伪标签并在目标域上优化，已成为 UDA 分割的主流范式。

现有痛点：自训练方法在实践中难以平衡各类别的学习。分割数据集本身就存在严重的类别不平衡（道路类像素远多于骑行者类），而 UDA 设置中域间数据和标签分布的双重偏移使问题更加复杂——有些类容易迁移（如道路），有些类迁移困难（如骑行者），偏差程度与训练集类别频率并不一致。自训练的确认偏差进一步加剧这一现象：偏差类的错误伪标签在训练中被不断强化。

核心矛盾：现有的重加权和重采样策略依赖于"训练和测试分布相同"的假设，但 UDA 中源域和目标域在数据空间和标签空间上的分布均不同，目标域的类别先验也不可得，使得这些启发式方法缺乏理论支撑且在 UDA 中效果不稳定。

本文目标：无需目标域分布先验，直接从模型自身的预测中评估和缓解类别偏差。

切入角度：作者观察到网络对不同类别预测的 logit 分布存在系统性差异——过度预测的类正 logit 值偏大，预测不足的类正 logit 值偏小。这一差异的排序与类别偏差的排序高度一致（相关性 > 0.9），因此可以通过平衡 logit 分布来消除偏差。

核心 idea：通过将各类的 logit 分布对齐到共享锚点分布来实现类别平衡的域自适应分割。

方法详解¶

整体框架¶

BLDA 构建在标准的自训练 UDA 框架之上。输入是源域有标注图像和目标域无标注图像，输出是目标域上的语义分割预测。整体 pipeline 分四个阶段：(1) 构建 logit 集合矩阵 \(\mathcal{M}\) 来统计各类的正/负 logit 分布并量化偏差；(2) 后处理阶段用 CDF 映射将各类 logit 对齐到锚点分布实现平衡预测；(3) 训练阶段用 GMM 在线估计 logit 分布并将修正项嵌入损失函数以生成无偏伪标签；(4) 利用正 CDF 值作为域共享结构知识的辅助回归任务来桥接源/目标域。

关键设计¶

基于 logit 分布的偏差评估:
- 功能：直接从网络预测量化各类别的过/欠预测程度，无需目标域标签先验
- 核心思路：将混淆矩阵的每个元素替换为对应的 logit 值集合，得到 \(C \times C\) 的 logit 集合矩阵 \(\mathcal{M}\)。对角线元素 \(\mathcal{M}_{ll}\) 构成类别 \(l\) 的"正 logit 分布"（真实属于 \(l\) 类时预测为 \(l\) 的 logit 值），非对角线元素构成"负 logit 分布"。类别偏差定义为 \(\text{Bias}(l) = \frac{1}{C}\sum_{c} \mathbb{P}(\arg\max f_\theta(x)[c'] = l | y=c) - 1/C\)，可通过比较正/负 logit 分布来估计：过预测类的正/负分布差异大（logit 值偏高），欠预测类的差异小（logit 值偏低）
- 设计动机：绕过了对目标域标签分布的依赖，从模型自身的预测行为出发诊断问题。论文证明无偏网络的充分条件是各类正/负分布相同
锚点分布对齐（后处理校准）:
- 功能：在推理时将各类的 logit 预测重新平衡
- 核心思路：设定共享的正锚点分布 \(P_p\) 和负锚点分布 \(P_n\)（取源域全局正/负 logit 分布），通过 CDF 逆映射将每个类的 logit 值点对点地校正：\(z' = F_p^{-1}(F_{cl}(z))\)（若 \(c=l\)，即正 logit）或 \(z' = F_n^{-1}(F_{cl}(z))\)（若 \(c \ne l\)，即负 logit）。定义偏移 \(\Delta_{cl}(z) = z' - z\)，修正后的预测为 \(\tilde{y} = \arg\max_c \frac{\exp(f_\theta(x)[c] + \tau\Delta_{cc})}{\sum_{c'}\exp(f_\theta(x)[c'] + \tau\Delta_{cc'})}\)
- 设计动机：CDF 映射保持分布内部的相对排序（结构信息），同时对齐分布到统一参考。全局分布作为锚点利用了 Bernstein 不等式减少估计误差，比单类分布更稳定
在线 logit 修正（训练时校正）:
- 功能：在自训练过程中生成无偏的伪标签，阻断确认偏差的正反馈循环
- 核心思路：用高斯混合模型（GMM）分别对源域和目标域的 logit 分布进行在线建模。源/目标各维护 \(C \times C \times K\) 个高斯分量。每个训练迭代用动量 EM 更新 GMM 参数：\(\phi_{cl}^{(\mathcal{T})} \leftarrow (1-\tilde{\tau}^n)\phi_{cl}^{(\mathcal{T})} + \tilde{\tau}^n \hat{\phi}_{cl}\)。计算修正偏移嵌入交叉熵损失：\(\tilde{\ell}_{ce}^s = -\log \frac{\exp(f_\theta(x)[y] - \tau\Delta_{y,y}^S)}{\sum_c \exp(f_\theta(x)[c] - \tau\Delta_{y,c}^S)}\)。本质上学习平衡评分器 \(g(x)[y] = f(x)[y] - \tau\Delta_y(x)\)，等价于自适应 margin-based loss
- 设计动机：后处理仅在推理时纠偏，但伪标签的偏差会在训练过程中不断累积放大。在线修正在源头阻断了这一循环，且通过共享锚点使目标域 logit 分布逐渐向源域对齐

损失函数 / 训练策略¶

总训练目标为 \(\mathcal{L} = \tilde{\mathcal{L}}^s + \tilde{\mathcal{L}}^u + \lambda(\mathcal{L}_{reg}^S + \mathcal{L}_{reg}^T)\)。其中 \(\tilde{\mathcal{L}}^s\) 和 \(\tilde{\mathcal{L}}^u\) 分别是嵌入修正项的源域监督损失和目标域伪标签损失。\(\mathcal{L}_{reg}\) 是 CDF 辅助回归损失：用额外回归头预测各像素的正 CDF 值 \(d_{ij} = F_{y,y}(f_\theta(x)[y])\)，该值衡量像素在其类别中的辨别难度，是域不变的结构知识。温度 \(\tau=0.1\)，损失权重 \(\lambda=0.2\)，训练 40K 迭代。

实验关键数据¶

主实验（GTA5→Cityscapes mIoU %）¶

方法	架构	mIoU ↑	Sidewalk	Fence	Pole	Sign	Bus	Train	Bike
DAFormer	T	68.3	70.2	48.1	49.6	59.4	78.2	65.1	61.8
+BLDA	T	70.7	78.3	55.2	55.7	65.2	83.4	73.2	67.1
HRDA	T	73.8	74.4	51.5	57.1	69.3	85.7	75.9	67.5
+BLDA	T	75.6	77.6	57.9	62.1	72.5	87.7	79.9	68.9
MIC	T	75.9	80.1	56.9	59.7	71.3	90.3	80.4	68.5
+BLDA	T	77.1	82.6	61.0	64.9	74.8	88.8	82.6	72.0

消融与对比（DAFormer on GTA→CS）¶

配置	mIoU	std ↓	说明
DAFormer 基线	68.3	16.8	类间偏差严重
+ 重加权 (Cui et al.)	68.8	-	调整损失权重，效果有限
+ 重采样 (DAFormer RCS)	69.2	-	调整样本分布
+ BLDA（完整）	70.7	15.5	logit 分布平衡
DACS (CNN)	52.1	27.1	CNN 基线
DACS + BLDA (CNN)	54.7	25.6	CNN 上同样有效

关键发现¶

欠预测类别提升最显著：DAFormer 基线上 Sidewalk +8.1, Fence +7.1, Train +8.1, Bike +5.3，这些正是传统方法难以处理的域迁移困难类
BLDA 在四种基线方法上均带来一致增益（+1.2 到 +2.4 mIoU），同时类间标准差显著降低（DAFormer 16.8→15.5），验证了类别平衡的有效性
在 CNN（ResNet-101）和 Transformer（MiT-B5）架构上均有效，说明偏差问题与架构无关

亮点与洞察¶

从 logit 分布角度诊断类别偏差是本文最核心的贡献——不依赖无法获取的目标域真实标签分布，而是直接从模型预测行为中提取偏差信号，具有很好的普适性
CDF 映射作为域桥接的结构知识：正 CDF 值衡量像素在其类别中的辨别难度，该特征不受图像风格影响因此天然域不变，作为辅助任务是一个优雅的副产品
即插即用的工程友好性：不修改网络结构，不增加推理开销（在线修正仅训练时需要），可无缝集成到任何自训练 UDA 框架

局限性¶

锚点分布固定取全局源域 logit 分布，当源/目标域差异极大时可能不是最优参考
GMM 的高斯假设在某些类别（如分布高度偏斜或多模态的类）可能不准确
仅在城市场景驾驶分割上验证（GTA/SYNTHIA→Cityscapes），其他 UDA 分割场景待验证

评分¶

新颖性: ⭐⭐⭐⭐ 从 logit 分布角度评估和修正UDA类别偏差，视角新颖且有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ 两个基准、四种基线、两种架构、完整消融
写作质量: ⭐⭐⭐⭐ 问题分析透彻，动机推导链完整
价值: ⭐⭐⭐⭐⭐ 即插即用的UDA分割改进模块，工程实用性极高