跳转至

Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation

会议: ICLR 2026
arXiv: 2601.21315
代码: 无
领域: 其他
关键词: 分布鲁棒优化, 无监督域适应, 多源域适应, Wasserstein距离, 伪标签

一句话总结

提出一种分布鲁棒学习框架,通过联合建模目标域协变量分布和条件标签分布的不确定性,在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。

研究背景与动机

无监督域适应(UDA)假设训练(源域)和测试(目标域)数据分布不同,仅有源域标签和目标域无标签数据。现有方法主要分两类:

  1. 分布对齐方法(DANN、CDAN、MK-MMD):通过对齐源/目标域分布来减小域差异,但在虚假相关性存在时容易对齐无关特征(如背景、颜色)
  2. 伪标签方法(STAR、ATDOC):利用源域训练模型生成目标域伪标签,但标签质量依赖初始模型

这两类方法在以下两个实际场景中表现不佳: - 目标数据稀缺:对齐估计不可靠,伪标签噪声大 - 虚假相关性:模型依赖非因果特征(如背景、性别、颜色),这些特征不迁移到目标域

现有DRO方法(如GroupDRO)通常需要组标签,且不利用无标签目标数据。本文希望设计一种同时处理协变量移位和条件分布移位的鲁棒框架。

方法详解

整体框架

本文提出一种新的分布鲁棒学习框架,核心是构建一个双层不确定性集合(ambiguity set),同时建模: 1. 目标域输入分布的不确定性(通过Wasserstein球) 2. 条件标签分布的不确定性(通过多源条件分布的混合)

尽管框架基于多源设定,但也适用于单源场景——通过随机子采样模拟多个伪源域。

关键设计

1. 多源框架统一单源问题

对于单源数据集 \(\mathbf{D}^{\text{sc}}\),通过有放回随机子采样生成 \(K\) 个子集 \(\mathbf{D}^{(k)}\)\(K=10\), 每个子集大小 \(N^{\text{sc}}/5\))。当源分布是异质子群体的混合时,重复子采样增加了某些子样本近似单一子群体的概率,从而对混合比例的变化具有鲁棒性。

2. 不确定性集合定义

给定容许参数 \(\epsilon_1, \epsilon_2 \geq 0\) 和参考向量 \(\bar{\beta} \in \Delta_{K-1}\),不确定性集合为:

\[\mathcal{Q} = \left\{ Q = (Q_X, Q_{Y|X}) \mid Q_{Y|X} = \sum_{k=1}^K \beta_k \hat{P}_{Y|X}^{(k)}, \ D_1(Q_X, \hat{P}_X^{\text{tg}}) \leq \epsilon_1, \ D_2(\beta, \bar{\beta}) \leq \epsilon_2 \right\}\]

其中: - \(\hat{P}_{Y|X}^{(k)}\):第 \(k\) 个源域的条件分布估计 - \(D_1\):无穷阶Wasserstein距离,控制输入分布偏移 - \(D_2\):欧氏距离,控制混合权重偏移 - \(\epsilon_1\):协变量分布的鲁棒半径,目标数据稀缺时尤为重要 - \(\epsilon_2\):条件分布混合权重的鲁棒半径

3. 条件分布估计

先在全部源数据上训练分类模型,提取特征映射 \(z: \mathcal{X} \to \mathcal{Z}\)(去掉最后分类层),然后在每个子集上独立训练线性logistic回归,softmax输出作为概率估计 \(\hat{P}_{Y|X}^{(k)}\)可与现有UDA方法(CDAN、STAR)结合,用其作为特征提取器后再构建条件估计。

4. 可计算的代理目标

通过Proposition 3.1,将minimax优化问题转化为可计算的上界代理目标:

\[\sup_{\beta} \mathbb{E}_{\hat{P}_X^{\text{tg}}} \left[ \sup_{\|z' - z(X)\|_2 \leq \epsilon_1} \ell(f_Z^\theta(z'), y^\circ(\beta, X)) \right]\]

其中 \(y^\circ(\beta, x) = \sum_{k=1}^K \beta_k \hat{p}_{Y|X}^{(k)}(\cdot|x)\)软伪标签向量

损失函数 / 训练策略

交替优化三个变量(Algorithm 1):

  1. 更新对抗特征 \(z'\):固定 \(\theta, \beta\),对特征做投影梯度上升,在 \(\epsilon_1\)-球内寻找最大化损失的扰动(类似对抗训练)
  2. 更新混合权重 \(\beta\):固定 \(\theta, z'\),使用指数化梯度上升 + 投影到 \(\epsilon_2\)-球内,给损失较大的条件估计更高权重
  3. 更新模型参数 \(\theta\):固定 \(z', \beta\),标准梯度下降最小化损失

核心直觉:\(\beta\) 的更新创建条件分布的对抗性混合,\(\theta\) 的更新迫使分类器对这种对抗性混合具有鲁棒性。

实验关键数据

主实验

实验1:数字识别任务(MNIST/SVHN/USPS)

方法 SVHN→MNIST (100) SVHN→MNIST (10) MNIST→USPS (100) USPS→MNIST (100)
ERM 59.6 - 63.4 60.4
DANN 66.0 61.2 82.0 74.8
CDAN 63.4 56.9 80.8 58.3
MCD 79.1 61.3 89.3 96.1
Ours (STAR) 94.4 91.3 95.6 97.3

目标数据仅10样本/类时,Ours(STAR) 仍达91.3%(SVHN→MNIST),远超所有基线。

实验2:虚假相关性基准(Waterbirds/CelebA/CMNIST)

方法 Waterbirds CelebA CMNIST
ERM 48.4 35.5 0.9
CORAL 50.9 31.7 1.7
MCD 59.0 30.7 1.9
GroupDRO (需组标签) 61.4 63.0 3.4
Ours (ERM) 87.3 85.0 7.5

相比ERM,Waterbirds +38.9%,CelebA +49.5%。无需组标签即大幅超越GroupDRO。

消融实验

  • 超参数敏感性\(\epsilon_1\)\(\epsilon_2\) 的热力图显示,中等不确定性(\(\epsilon_1 \in \{0.2,0.4\}\), \(\epsilon_2 \geq 0.2\))时性能稳定,存在宽广的最优平台
  • 目标数据极度稀缺时\(\epsilon_1\) 的影响更显著,因为协变量分布估计更不可靠;\(\epsilon_2\) 可设为较大值而不影响稳定性
  • LODO-CV验证:不依赖标签目标验证数据的*Ours版本虽略低,但仍超越所有基线

关键发现

  1. 与CDAN结合可在SVHN→MNIST上提升+29.1%
  2. 方法在目标数据从100降到10样本时性能下降远小于基线方法
  3. 协变量鲁棒半径 \(\epsilon_1\) 在数据稀缺时至关重要,条件混合半径 \(\epsilon_2\) 较为稳定

亮点与洞察

  1. 双层不确定性建模:同时考虑协变量和条件分布的不确定性,是对单一DRO方法的重要推广
  2. 无需组标签:与GroupDRO不同,本方法不需要知道数据的组/子群体信息
  3. 即插即用:可与CDAN、STAR等现有UDA方法无缝结合,作为后处理鲁棒化模块
  4. 单源到多源的统一:通过子采样巧妙将单源问题转化为多源框架

局限性 / 可改进方向

  1. 实验仅覆盖视觉基准(数字识别、spurious correlation),未验证NLP或时序数据
  2. 需要小量标签目标验证数据进行超参数选择(虽然LODO-CV可替代)
  3. 条件分布估计依赖预训练特征提取器的质量
  4. 子采样数 \(K=10\) 是固定选择,自适应选择策略可能进一步提升
  5. 计算开销来自 \(K\) 个独立logistic回归 + minimax优化的交替迭代

相关工作与启发

  • Maximin Effect(Meinshausen & Bühlmann, 2015):本文的直接灵感来源,将回归设定的DRO推广到分类
  • GroupDRO(Sagawa et al., 2019):处理子群体偏移但需组标签
  • Wasserstein DRO(Gao et al., 2024):提供协变量扰动的理论基础
  • 可启发联邦学习中异质客户端的鲁棒聚合策略

评分

维度 分数
新颖性 ★★★★☆
技术深度 ★★★★☆
实验充分性 ★★★★☆
写作质量 ★★★★☆
实用价值 ★★★★☆