Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation¶
会议: ICLR 2026
arXiv: 2601.21315
代码: 无
领域: 其他
关键词: 分布鲁棒优化, 无监督域适应, 多源域适应, Wasserstein距离, 伪标签
一句话总结¶
提出一种分布鲁棒学习框架,通过联合建模目标域协变量分布和条件标签分布的不确定性,在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。
研究背景与动机¶
无监督域适应(UDA)假设训练(源域)和测试(目标域)数据分布不同,仅有源域标签和目标域无标签数据。现有方法主要分两类:
- 分布对齐方法(DANN、CDAN、MK-MMD):通过对齐源/目标域分布来减小域差异,但在虚假相关性存在时容易对齐无关特征(如背景、颜色)
- 伪标签方法(STAR、ATDOC):利用源域训练模型生成目标域伪标签,但标签质量依赖初始模型
这两类方法在以下两个实际场景中表现不佳: - 目标数据稀缺:对齐估计不可靠,伪标签噪声大 - 虚假相关性:模型依赖非因果特征(如背景、性别、颜色),这些特征不迁移到目标域
现有DRO方法(如GroupDRO)通常需要组标签,且不利用无标签目标数据。本文希望设计一种同时处理协变量移位和条件分布移位的鲁棒框架。
方法详解¶
整体框架¶
本文提出一种新的分布鲁棒学习框架,核心是构建一个双层不确定性集合(ambiguity set),同时建模: 1. 目标域输入分布的不确定性(通过Wasserstein球) 2. 条件标签分布的不确定性(通过多源条件分布的混合)
尽管框架基于多源设定,但也适用于单源场景——通过随机子采样模拟多个伪源域。
关键设计¶
1. 多源框架统一单源问题¶
对于单源数据集 \(\mathbf{D}^{\text{sc}}\),通过有放回随机子采样生成 \(K\) 个子集 \(\mathbf{D}^{(k)}\)(\(K=10\), 每个子集大小 \(N^{\text{sc}}/5\))。当源分布是异质子群体的混合时,重复子采样增加了某些子样本近似单一子群体的概率,从而对混合比例的变化具有鲁棒性。
2. 不确定性集合定义¶
给定容许参数 \(\epsilon_1, \epsilon_2 \geq 0\) 和参考向量 \(\bar{\beta} \in \Delta_{K-1}\),不确定性集合为:
其中: - \(\hat{P}_{Y|X}^{(k)}\):第 \(k\) 个源域的条件分布估计 - \(D_1\):无穷阶Wasserstein距离,控制输入分布偏移 - \(D_2\):欧氏距离,控制混合权重偏移 - \(\epsilon_1\):协变量分布的鲁棒半径,目标数据稀缺时尤为重要 - \(\epsilon_2\):条件分布混合权重的鲁棒半径
3. 条件分布估计¶
先在全部源数据上训练分类模型,提取特征映射 \(z: \mathcal{X} \to \mathcal{Z}\)(去掉最后分类层),然后在每个子集上独立训练线性logistic回归,softmax输出作为概率估计 \(\hat{P}_{Y|X}^{(k)}\)。可与现有UDA方法(CDAN、STAR)结合,用其作为特征提取器后再构建条件估计。
4. 可计算的代理目标¶
通过Proposition 3.1,将minimax优化问题转化为可计算的上界代理目标:
其中 \(y^\circ(\beta, x) = \sum_{k=1}^K \beta_k \hat{p}_{Y|X}^{(k)}(\cdot|x)\) 为软伪标签向量。
损失函数 / 训练策略¶
交替优化三个变量(Algorithm 1):
- 更新对抗特征 \(z'\):固定 \(\theta, \beta\),对特征做投影梯度上升,在 \(\epsilon_1\)-球内寻找最大化损失的扰动(类似对抗训练)
- 更新混合权重 \(\beta\):固定 \(\theta, z'\),使用指数化梯度上升 + 投影到 \(\epsilon_2\)-球内,给损失较大的条件估计更高权重
- 更新模型参数 \(\theta\):固定 \(z', \beta\),标准梯度下降最小化损失
核心直觉:\(\beta\) 的更新创建条件分布的对抗性混合,\(\theta\) 的更新迫使分类器对这种对抗性混合具有鲁棒性。
实验关键数据¶
主实验¶
实验1:数字识别任务(MNIST/SVHN/USPS)
| 方法 | SVHN→MNIST (100) | SVHN→MNIST (10) | MNIST→USPS (100) | USPS→MNIST (100) |
|---|---|---|---|---|
| ERM | 59.6 | - | 63.4 | 60.4 |
| DANN | 66.0 | 61.2 | 82.0 | 74.8 |
| CDAN | 63.4 | 56.9 | 80.8 | 58.3 |
| MCD | 79.1 | 61.3 | 89.3 | 96.1 |
| Ours (STAR) | 94.4 | 91.3 | 95.6 | 97.3 |
目标数据仅10样本/类时,Ours(STAR) 仍达91.3%(SVHN→MNIST),远超所有基线。
实验2:虚假相关性基准(Waterbirds/CelebA/CMNIST)
| 方法 | Waterbirds | CelebA | CMNIST |
|---|---|---|---|
| ERM | 48.4 | 35.5 | 0.9 |
| CORAL | 50.9 | 31.7 | 1.7 |
| MCD | 59.0 | 30.7 | 1.9 |
| GroupDRO (需组标签) | 61.4 | 63.0 | 3.4 |
| Ours (ERM) | 87.3 | 85.0 | 7.5 |
相比ERM,Waterbirds +38.9%,CelebA +49.5%。无需组标签即大幅超越GroupDRO。
消融实验¶
- 超参数敏感性:\(\epsilon_1\) 和 \(\epsilon_2\) 的热力图显示,中等不确定性(\(\epsilon_1 \in \{0.2,0.4\}\), \(\epsilon_2 \geq 0.2\))时性能稳定,存在宽广的最优平台
- 目标数据极度稀缺时:\(\epsilon_1\) 的影响更显著,因为协变量分布估计更不可靠;\(\epsilon_2\) 可设为较大值而不影响稳定性
- LODO-CV验证:不依赖标签目标验证数据的*Ours版本虽略低,但仍超越所有基线
关键发现¶
- 与CDAN结合可在SVHN→MNIST上提升+29.1%
- 方法在目标数据从100降到10样本时性能下降远小于基线方法
- 协变量鲁棒半径 \(\epsilon_1\) 在数据稀缺时至关重要,条件混合半径 \(\epsilon_2\) 较为稳定
亮点与洞察¶
- 双层不确定性建模:同时考虑协变量和条件分布的不确定性,是对单一DRO方法的重要推广
- 无需组标签:与GroupDRO不同,本方法不需要知道数据的组/子群体信息
- 即插即用:可与CDAN、STAR等现有UDA方法无缝结合,作为后处理鲁棒化模块
- 单源到多源的统一:通过子采样巧妙将单源问题转化为多源框架
局限性 / 可改进方向¶
- 实验仅覆盖视觉基准(数字识别、spurious correlation),未验证NLP或时序数据
- 需要小量标签目标验证数据进行超参数选择(虽然LODO-CV可替代)
- 条件分布估计依赖预训练特征提取器的质量
- 子采样数 \(K=10\) 是固定选择,自适应选择策略可能进一步提升
- 计算开销来自 \(K\) 个独立logistic回归 + minimax优化的交替迭代
相关工作与启发¶
- Maximin Effect(Meinshausen & Bühlmann, 2015):本文的直接灵感来源,将回归设定的DRO推广到分类
- GroupDRO(Sagawa et al., 2019):处理子群体偏移但需组标签
- Wasserstein DRO(Gao et al., 2024):提供协变量扰动的理论基础
- 可启发联邦学习中异质客户端的鲁棒聚合策略
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ★★★★☆ |
| 技术深度 | ★★★★☆ |
| 实验充分性 | ★★★★☆ |
| 写作质量 | ★★★★☆ |
| 实用价值 | ★★★★☆ |