跳转至

Balanced Learning for Domain Adaptive Semantic Segmentation

会议: ICML 2025
arXiv: 2512.06886
代码: https://github.com/Woof6/BLDA
领域: 语义分割
关键词: domain adaptation, semantic segmentation, class imbalance, logit calibration, self-training

一句话总结

提出 BLDA——通过分析网络预测的 logit 分布来直接量化类别偏差程度,用共享锚点分布对齐各类 logit 分布实现后处理校准,同时在自训练中用 GMM 在线估计并修正 logit 生成无偏伪标签,在 GTA→CS 和 SYN→CS 两个基准上为多种基线方法带来一致提升。

研究背景与动机

领域现状:无监督域自适应(UDA)语义分割旨在将有标注的源域知识迁移到无标注的目标域。自训练技术通过教师-学生框架生成伪标签并在目标域上优化,已成为 UDA 分割的主流范式。

现有痛点:自训练方法在实践中难以平衡各类别的学习。分割数据集本身就存在严重的类别不平衡(道路类像素远多于骑行者类),而 UDA 设置中域间数据和标签分布的双重偏移使问题更加复杂——有些类容易迁移(如道路),有些类迁移困难(如骑行者),偏差程度与训练集类别频率并不一致。自训练的确认偏差进一步加剧这一现象:偏差类的错误伪标签在训练中被不断强化。

核心矛盾:现有的重加权和重采样策略依赖于"训练和测试分布相同"的假设,但 UDA 中源域和目标域在数据空间和标签空间上的分布均不同,目标域的类别先验也不可得,使得这些启发式方法缺乏理论支撑且在 UDA 中效果不稳定。

本文目标:无需目标域分布先验,直接从模型自身的预测中评估和缓解类别偏差。

切入角度:作者观察到网络对不同类别预测的 logit 分布存在系统性差异——过度预测的类正 logit 值偏大,预测不足的类正 logit 值偏小。这一差异的排序与类别偏差的排序高度一致(相关性 > 0.9),因此可以通过平衡 logit 分布来消除偏差。

核心 idea:通过将各类的 logit 分布对齐到共享锚点分布来实现类别平衡的域自适应分割。

方法详解

整体框架

BLDA 构建在标准的自训练 UDA 框架之上。输入是源域有标注图像和目标域无标注图像,输出是目标域上的语义分割预测。整体 pipeline 分四个阶段:(1) 构建 logit 集合矩阵 \(\mathcal{M}\) 来统计各类的正/负 logit 分布并量化偏差;(2) 后处理阶段用 CDF 映射将各类 logit 对齐到锚点分布实现平衡预测;(3) 训练阶段用 GMM 在线估计 logit 分布并将修正项嵌入损失函数以生成无偏伪标签;(4) 利用正 CDF 值作为域共享结构知识的辅助回归任务来桥接源/目标域。

关键设计

  1. 基于 logit 分布的偏差评估:

    • 功能:直接从网络预测量化各类别的过/欠预测程度,无需目标域标签先验
    • 核心思路:将混淆矩阵的每个元素替换为对应的 logit 值集合,得到 \(C \times C\) 的 logit 集合矩阵 \(\mathcal{M}\)。对角线元素 \(\mathcal{M}_{ll}\) 构成类别 \(l\) 的"正 logit 分布"(真实属于 \(l\) 类时预测为 \(l\) 的 logit 值),非对角线元素构成"负 logit 分布"。类别偏差定义为 \(\text{Bias}(l) = \frac{1}{C}\sum_{c} \mathbb{P}(\arg\max f_\theta(x)[c'] = l | y=c) - 1/C\),可通过比较正/负 logit 分布来估计:过预测类的正/负分布差异大(logit 值偏高),欠预测类的差异小(logit 值偏低)
    • 设计动机:绕过了对目标域标签分布的依赖,从模型自身的预测行为出发诊断问题。论文证明无偏网络的充分条件是各类正/负分布相同
  2. 锚点分布对齐(后处理校准):

    • 功能:在推理时将各类的 logit 预测重新平衡
    • 核心思路:设定共享的正锚点分布 \(P_p\) 和负锚点分布 \(P_n\)(取源域全局正/负 logit 分布),通过 CDF 逆映射将每个类的 logit 值点对点地校正:\(z' = F_p^{-1}(F_{cl}(z))\)(若 \(c=l\),即正 logit)或 \(z' = F_n^{-1}(F_{cl}(z))\)(若 \(c \ne l\),即负 logit)。定义偏移 \(\Delta_{cl}(z) = z' - z\),修正后的预测为 \(\tilde{y} = \arg\max_c \frac{\exp(f_\theta(x)[c] + \tau\Delta_{cc})}{\sum_{c'}\exp(f_\theta(x)[c'] + \tau\Delta_{cc'})}\)
    • 设计动机:CDF 映射保持分布内部的相对排序(结构信息),同时对齐分布到统一参考。全局分布作为锚点利用了 Bernstein 不等式减少估计误差,比单类分布更稳定
  3. 在线 logit 修正(训练时校正):

    • 功能:在自训练过程中生成无偏的伪标签,阻断确认偏差的正反馈循环
    • 核心思路:用高斯混合模型(GMM)分别对源域和目标域的 logit 分布进行在线建模。源/目标各维护 \(C \times C \times K\) 个高斯分量。每个训练迭代用动量 EM 更新 GMM 参数:\(\phi_{cl}^{(\mathcal{T})} \leftarrow (1-\tilde{\tau}^n)\phi_{cl}^{(\mathcal{T})} + \tilde{\tau}^n \hat{\phi}_{cl}\)。计算修正偏移嵌入交叉熵损失:\(\tilde{\ell}_{ce}^s = -\log \frac{\exp(f_\theta(x)[y] - \tau\Delta_{y,y}^S)}{\sum_c \exp(f_\theta(x)[c] - \tau\Delta_{y,c}^S)}\)。本质上学习平衡评分器 \(g(x)[y] = f(x)[y] - \tau\Delta_y(x)\),等价于自适应 margin-based loss
    • 设计动机:后处理仅在推理时纠偏,但伪标签的偏差会在训练过程中不断累积放大。在线修正在源头阻断了这一循环,且通过共享锚点使目标域 logit 分布逐渐向源域对齐

损失函数 / 训练策略

总训练目标为 \(\mathcal{L} = \tilde{\mathcal{L}}^s + \tilde{\mathcal{L}}^u + \lambda(\mathcal{L}_{reg}^S + \mathcal{L}_{reg}^T)\)。其中 \(\tilde{\mathcal{L}}^s\)\(\tilde{\mathcal{L}}^u\) 分别是嵌入修正项的源域监督损失和目标域伪标签损失。\(\mathcal{L}_{reg}\) 是 CDF 辅助回归损失:用额外回归头预测各像素的正 CDF 值 \(d_{ij} = F_{y,y}(f_\theta(x)[y])\),该值衡量像素在其类别中的辨别难度,是域不变的结构知识。温度 \(\tau=0.1\),损失权重 \(\lambda=0.2\),训练 40K 迭代。

实验关键数据

主实验(GTA5→Cityscapes mIoU %)

方法 架构 mIoU ↑ Sidewalk Fence Pole Sign Bus Train Bike
DAFormer T 68.3 70.2 48.1 49.6 59.4 78.2 65.1 61.8
+BLDA T 70.7 78.3 55.2 55.7 65.2 83.4 73.2 67.1
HRDA T 73.8 74.4 51.5 57.1 69.3 85.7 75.9 67.5
+BLDA T 75.6 77.6 57.9 62.1 72.5 87.7 79.9 68.9
MIC T 75.9 80.1 56.9 59.7 71.3 90.3 80.4 68.5
+BLDA T 77.1 82.6 61.0 64.9 74.8 88.8 82.6 72.0

消融与对比(DAFormer on GTA→CS)

配置 mIoU std ↓ 说明
DAFormer 基线 68.3 16.8 类间偏差严重
+ 重加权 (Cui et al.) 68.8 - 调整损失权重,效果有限
+ 重采样 (DAFormer RCS) 69.2 - 调整样本分布
+ BLDA(完整) 70.7 15.5 logit 分布平衡
DACS (CNN) 52.1 27.1 CNN 基线
DACS + BLDA (CNN) 54.7 25.6 CNN 上同样有效

关键发现

  • 欠预测类别提升最显著:DAFormer 基线上 Sidewalk +8.1, Fence +7.1, Train +8.1, Bike +5.3,这些正是传统方法难以处理的域迁移困难类
  • BLDA 在四种基线方法上均带来一致增益(+1.2 到 +2.4 mIoU),同时类间标准差显著降低(DAFormer 16.8→15.5),验证了类别平衡的有效性
  • 在 CNN(ResNet-101)和 Transformer(MiT-B5)架构上均有效,说明偏差问题与架构无关

亮点与洞察

  • 从 logit 分布角度诊断类别偏差是本文最核心的贡献——不依赖无法获取的目标域真实标签分布,而是直接从模型预测行为中提取偏差信号,具有很好的普适性
  • CDF 映射作为域桥接的结构知识:正 CDF 值衡量像素在其类别中的辨别难度,该特征不受图像风格影响因此天然域不变,作为辅助任务是一个优雅的副产品
  • 即插即用的工程友好性:不修改网络结构,不增加推理开销(在线修正仅训练时需要),可无缝集成到任何自训练 UDA 框架

局限性

  • 锚点分布固定取全局源域 logit 分布,当源/目标域差异极大时可能不是最优参考
  • GMM 的高斯假设在某些类别(如分布高度偏斜或多模态的类)可能不准确
  • 仅在城市场景驾驶分割上验证(GTA/SYNTHIA→Cityscapes),其他 UDA 分割场景待验证

相关工作与启发

  • vs DAFormer + RCS:RCS 对稀有类采样频率更高但本质上仍是重采样策略,需要类频率先验;BLDA 从 logit 分布直接修正,更具自适应性
  • vs CPSL (Li et al., 2022):CPSL 用类级伪标签选择阈值来平衡类别,但阈值依赖先验;BLDA 的 GMM 在线估计无需手动设定
  • vs 传统 logit 调整 (Menon 2021):传统方法基于标签频率调整 logit,假设测试分布与训练一致;BLDA 通过分布对齐绕过了这一假设,更适用于域自适应场景

评分

  • 新颖性: ⭐⭐⭐⭐ 从 logit 分布角度评估和修正UDA类别偏差,视角新颖且有理论支撑
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个基准、四种基线、两种架构、完整消融
  • 写作质量: ⭐⭐⭐⭐ 问题分析透彻,动机推导链完整
  • 价值: ⭐⭐⭐⭐⭐ 即插即用的UDA分割改进模块,工程实用性极高

相关论文