Balanced Learning for Domain Adaptive Semantic Segmentation¶
会议: ICML 2025
arXiv: 2512.06886
代码: https://github.com/Woof6/BLDA
领域: 语义分割
关键词: domain adaptation, semantic segmentation, class imbalance, logit calibration, self-training
一句话总结¶
提出 BLDA——通过分析网络预测的 logit 分布来直接量化类别偏差程度,用共享锚点分布对齐各类 logit 分布实现后处理校准,同时在自训练中用 GMM 在线估计并修正 logit 生成无偏伪标签,在 GTA→CS 和 SYN→CS 两个基准上为多种基线方法带来一致提升。
研究背景与动机¶
领域现状:无监督域自适应(UDA)语义分割旨在将有标注的源域知识迁移到无标注的目标域。自训练技术通过教师-学生框架生成伪标签并在目标域上优化,已成为 UDA 分割的主流范式。
现有痛点:自训练方法在实践中难以平衡各类别的学习。分割数据集本身就存在严重的类别不平衡(道路类像素远多于骑行者类),而 UDA 设置中域间数据和标签分布的双重偏移使问题更加复杂——有些类容易迁移(如道路),有些类迁移困难(如骑行者),偏差程度与训练集类别频率并不一致。自训练的确认偏差进一步加剧这一现象:偏差类的错误伪标签在训练中被不断强化。
核心矛盾:现有的重加权和重采样策略依赖于"训练和测试分布相同"的假设,但 UDA 中源域和目标域在数据空间和标签空间上的分布均不同,目标域的类别先验也不可得,使得这些启发式方法缺乏理论支撑且在 UDA 中效果不稳定。
本文目标:无需目标域分布先验,直接从模型自身的预测中评估和缓解类别偏差。
切入角度:作者观察到网络对不同类别预测的 logit 分布存在系统性差异——过度预测的类正 logit 值偏大,预测不足的类正 logit 值偏小。这一差异的排序与类别偏差的排序高度一致(相关性 > 0.9),因此可以通过平衡 logit 分布来消除偏差。
核心 idea:通过将各类的 logit 分布对齐到共享锚点分布来实现类别平衡的域自适应分割。
方法详解¶
整体框架¶
BLDA 构建在标准的自训练 UDA 框架之上。输入是源域有标注图像和目标域无标注图像,输出是目标域上的语义分割预测。整体 pipeline 分四个阶段:(1) 构建 logit 集合矩阵 \(\mathcal{M}\) 来统计各类的正/负 logit 分布并量化偏差;(2) 后处理阶段用 CDF 映射将各类 logit 对齐到锚点分布实现平衡预测;(3) 训练阶段用 GMM 在线估计 logit 分布并将修正项嵌入损失函数以生成无偏伪标签;(4) 利用正 CDF 值作为域共享结构知识的辅助回归任务来桥接源/目标域。
关键设计¶
-
基于 logit 分布的偏差评估:
- 功能:直接从网络预测量化各类别的过/欠预测程度,无需目标域标签先验
- 核心思路:将混淆矩阵的每个元素替换为对应的 logit 值集合,得到 \(C \times C\) 的 logit 集合矩阵 \(\mathcal{M}\)。对角线元素 \(\mathcal{M}_{ll}\) 构成类别 \(l\) 的"正 logit 分布"(真实属于 \(l\) 类时预测为 \(l\) 的 logit 值),非对角线元素构成"负 logit 分布"。类别偏差定义为 \(\text{Bias}(l) = \frac{1}{C}\sum_{c} \mathbb{P}(\arg\max f_\theta(x)[c'] = l | y=c) - 1/C\),可通过比较正/负 logit 分布来估计:过预测类的正/负分布差异大(logit 值偏高),欠预测类的差异小(logit 值偏低)
- 设计动机:绕过了对目标域标签分布的依赖,从模型自身的预测行为出发诊断问题。论文证明无偏网络的充分条件是各类正/负分布相同
-
锚点分布对齐(后处理校准):
- 功能:在推理时将各类的 logit 预测重新平衡
- 核心思路:设定共享的正锚点分布 \(P_p\) 和负锚点分布 \(P_n\)(取源域全局正/负 logit 分布),通过 CDF 逆映射将每个类的 logit 值点对点地校正:\(z' = F_p^{-1}(F_{cl}(z))\)(若 \(c=l\),即正 logit)或 \(z' = F_n^{-1}(F_{cl}(z))\)(若 \(c \ne l\),即负 logit)。定义偏移 \(\Delta_{cl}(z) = z' - z\),修正后的预测为 \(\tilde{y} = \arg\max_c \frac{\exp(f_\theta(x)[c] + \tau\Delta_{cc})}{\sum_{c'}\exp(f_\theta(x)[c'] + \tau\Delta_{cc'})}\)
- 设计动机:CDF 映射保持分布内部的相对排序(结构信息),同时对齐分布到统一参考。全局分布作为锚点利用了 Bernstein 不等式减少估计误差,比单类分布更稳定
-
在线 logit 修正(训练时校正):
- 功能:在自训练过程中生成无偏的伪标签,阻断确认偏差的正反馈循环
- 核心思路:用高斯混合模型(GMM)分别对源域和目标域的 logit 分布进行在线建模。源/目标各维护 \(C \times C \times K\) 个高斯分量。每个训练迭代用动量 EM 更新 GMM 参数:\(\phi_{cl}^{(\mathcal{T})} \leftarrow (1-\tilde{\tau}^n)\phi_{cl}^{(\mathcal{T})} + \tilde{\tau}^n \hat{\phi}_{cl}\)。计算修正偏移嵌入交叉熵损失:\(\tilde{\ell}_{ce}^s = -\log \frac{\exp(f_\theta(x)[y] - \tau\Delta_{y,y}^S)}{\sum_c \exp(f_\theta(x)[c] - \tau\Delta_{y,c}^S)}\)。本质上学习平衡评分器 \(g(x)[y] = f(x)[y] - \tau\Delta_y(x)\),等价于自适应 margin-based loss
- 设计动机:后处理仅在推理时纠偏,但伪标签的偏差会在训练过程中不断累积放大。在线修正在源头阻断了这一循环,且通过共享锚点使目标域 logit 分布逐渐向源域对齐
损失函数 / 训练策略¶
总训练目标为 \(\mathcal{L} = \tilde{\mathcal{L}}^s + \tilde{\mathcal{L}}^u + \lambda(\mathcal{L}_{reg}^S + \mathcal{L}_{reg}^T)\)。其中 \(\tilde{\mathcal{L}}^s\) 和 \(\tilde{\mathcal{L}}^u\) 分别是嵌入修正项的源域监督损失和目标域伪标签损失。\(\mathcal{L}_{reg}\) 是 CDF 辅助回归损失:用额外回归头预测各像素的正 CDF 值 \(d_{ij} = F_{y,y}(f_\theta(x)[y])\),该值衡量像素在其类别中的辨别难度,是域不变的结构知识。温度 \(\tau=0.1\),损失权重 \(\lambda=0.2\),训练 40K 迭代。
实验关键数据¶
主实验(GTA5→Cityscapes mIoU %)¶
| 方法 | 架构 | mIoU ↑ | Sidewalk | Fence | Pole | Sign | Bus | Train | Bike |
|---|---|---|---|---|---|---|---|---|---|
| DAFormer | T | 68.3 | 70.2 | 48.1 | 49.6 | 59.4 | 78.2 | 65.1 | 61.8 |
| +BLDA | T | 70.7 | 78.3 | 55.2 | 55.7 | 65.2 | 83.4 | 73.2 | 67.1 |
| HRDA | T | 73.8 | 74.4 | 51.5 | 57.1 | 69.3 | 85.7 | 75.9 | 67.5 |
| +BLDA | T | 75.6 | 77.6 | 57.9 | 62.1 | 72.5 | 87.7 | 79.9 | 68.9 |
| MIC | T | 75.9 | 80.1 | 56.9 | 59.7 | 71.3 | 90.3 | 80.4 | 68.5 |
| +BLDA | T | 77.1 | 82.6 | 61.0 | 64.9 | 74.8 | 88.8 | 82.6 | 72.0 |
消融与对比(DAFormer on GTA→CS)¶
| 配置 | mIoU | std ↓ | 说明 |
|---|---|---|---|
| DAFormer 基线 | 68.3 | 16.8 | 类间偏差严重 |
| + 重加权 (Cui et al.) | 68.8 | - | 调整损失权重,效果有限 |
| + 重采样 (DAFormer RCS) | 69.2 | - | 调整样本分布 |
| + BLDA(完整) | 70.7 | 15.5 | logit 分布平衡 |
| DACS (CNN) | 52.1 | 27.1 | CNN 基线 |
| DACS + BLDA (CNN) | 54.7 | 25.6 | CNN 上同样有效 |
关键发现¶
- 欠预测类别提升最显著:DAFormer 基线上 Sidewalk +8.1, Fence +7.1, Train +8.1, Bike +5.3,这些正是传统方法难以处理的域迁移困难类
- BLDA 在四种基线方法上均带来一致增益(+1.2 到 +2.4 mIoU),同时类间标准差显著降低(DAFormer 16.8→15.5),验证了类别平衡的有效性
- 在 CNN(ResNet-101)和 Transformer(MiT-B5)架构上均有效,说明偏差问题与架构无关
亮点与洞察¶
- 从 logit 分布角度诊断类别偏差是本文最核心的贡献——不依赖无法获取的目标域真实标签分布,而是直接从模型预测行为中提取偏差信号,具有很好的普适性
- CDF 映射作为域桥接的结构知识:正 CDF 值衡量像素在其类别中的辨别难度,该特征不受图像风格影响因此天然域不变,作为辅助任务是一个优雅的副产品
- 即插即用的工程友好性:不修改网络结构,不增加推理开销(在线修正仅训练时需要),可无缝集成到任何自训练 UDA 框架
局限性¶
- 锚点分布固定取全局源域 logit 分布,当源/目标域差异极大时可能不是最优参考
- GMM 的高斯假设在某些类别(如分布高度偏斜或多模态的类)可能不准确
- 仅在城市场景驾驶分割上验证(GTA/SYNTHIA→Cityscapes),其他 UDA 分割场景待验证
相关工作与启发¶
- vs DAFormer + RCS:RCS 对稀有类采样频率更高但本质上仍是重采样策略,需要类频率先验;BLDA 从 logit 分布直接修正,更具自适应性
- vs CPSL (Li et al., 2022):CPSL 用类级伪标签选择阈值来平衡类别,但阈值依赖先验;BLDA 的 GMM 在线估计无需手动设定
- vs 传统 logit 调整 (Menon 2021):传统方法基于标签频率调整 logit,假设测试分布与训练一致;BLDA 通过分布对齐绕过了这一假设,更适用于域自适应场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 从 logit 分布角度评估和修正UDA类别偏差,视角新颖且有理论支撑
- 实验充分度: ⭐⭐⭐⭐⭐ 两个基准、四种基线、两种架构、完整消融
- 写作质量: ⭐⭐⭐⭐ 问题分析透彻,动机推导链完整
- 价值: ⭐⭐⭐⭐⭐ 即插即用的UDA分割改进模块,工程实用性极高
相关论文¶
- [ICML 2025] Dual form Complementary Masking for Domain-Adaptive Image Segmentation
- [CVPR 2026] Heuristic Self-Paced Learning for Domain Adaptive Semantic Segmentation under Adverse Conditions
- [CVPR 2026] Masked Representation Modeling for Domain-Adaptive Segmentation
- [CVPR 2025] Universal Domain Adaptation for Semantic Segmentation
- [ICCV 2025] Exploiting Domain Properties in Language-Driven Domain Generalization for Semantic Segmentation