Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation¶

会议: ICLR 2026
arXiv: 2601.21315
代码: 无
领域: 其他
关键词: 分布鲁棒优化, 无监督域适应, 多源域适应, Wasserstein距离, 伪标签

一句话总结¶

提出一种分布鲁棒学习框架，通过联合建模目标域协变量分布和条件标签分布的不确定性，在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。

研究背景与动机¶

无监督域适应（UDA）假设训练（源域）和测试（目标域）数据分布不同，仅有源域标签和目标域无标签数据。现有方法主要分两类：

分布对齐方法（DANN、CDAN、MK-MMD）：通过对齐源/目标域分布来减小域差异，但在虚假相关性存在时容易对齐无关特征（如背景、颜色）
伪标签方法（STAR、ATDOC）：利用源域训练模型生成目标域伪标签，但标签质量依赖初始模型

这两类方法在以下两个实际场景中表现不佳： - 目标数据稀缺：对齐估计不可靠，伪标签噪声大 - 虚假相关性：模型依赖非因果特征（如背景、性别、颜色），这些特征不迁移到目标域

现有DRO方法（如GroupDRO）通常需要组标签，且不利用无标签目标数据。本文希望设计一种同时处理协变量移位和条件分布移位的鲁棒框架。

方法详解¶

整体框架¶

本文提出一种新的分布鲁棒学习框架，核心是构建一个双层不确定性集合（ambiguity set），同时建模： 1. 目标域输入分布的不确定性（通过Wasserstein球） 2. 条件标签分布的不确定性（通过多源条件分布的混合）

尽管框架基于多源设定，但也适用于单源场景——通过随机子采样模拟多个伪源域。

关键设计¶

1. 多源框架统一单源问题¶

对于单源数据集 \(\mathbf{D}^{\text{sc}}\)，通过有放回随机子采样生成 \(K\) 个子集 \(\mathbf{D}^{(k)}\)（\(K=10\), 每个子集大小 \(N^{\text{sc}}/5\)）。当源分布是异质子群体的混合时，重复子采样增加了某些子样本近似单一子群体的概率，从而对混合比例的变化具有鲁棒性。

2. 不确定性集合定义¶

给定容许参数 \(\epsilon_1, \epsilon_2 \geq 0\) 和参考向量 \(\bar{\beta} \in \Delta_{K-1}\)，不确定性集合为：

\[\mathcal{Q} = \left\{ Q = (Q_X, Q_{Y|X}) \mid Q_{Y|X} = \sum_{k=1}^K \beta_k \hat{P}_{Y|X}^{(k)}, \ D_1(Q_X, \hat{P}_X^{\text{tg}}) \leq \epsilon_1, \ D_2(\beta, \bar{\beta}) \leq \epsilon_2 \right\}\]

其中： - \(\hat{P}_{Y|X}^{(k)}\)：第 \(k\) 个源域的条件分布估计 - \(D_1\)：无穷阶Wasserstein距离，控制输入分布偏移 - \(D_2\)：欧氏距离，控制混合权重偏移 - \(\epsilon_1\)：协变量分布的鲁棒半径，目标数据稀缺时尤为重要 - \(\epsilon_2\)：条件分布混合权重的鲁棒半径

3. 条件分布估计¶

先在全部源数据上训练分类模型，提取特征映射 \(z: \mathcal{X} \to \mathcal{Z}\)（去掉最后分类层），然后在每个子集上独立训练线性logistic回归，softmax输出作为概率估计 \(\hat{P}_{Y|X}^{(k)}\)。可与现有UDA方法（CDAN、STAR）结合，用其作为特征提取器后再构建条件估计。

4. 可计算的代理目标¶

通过Proposition 3.1，将minimax优化问题转化为可计算的上界代理目标：

\[\sup_{\beta} \mathbb{E}_{\hat{P}_X^{\text{tg}}} \left[ \sup_{\|z' - z(X)\|_2 \leq \epsilon_1} \ell(f_Z^\theta(z'), y^\circ(\beta, X)) \right]\]

其中 \(y^\circ(\beta, x) = \sum_{k=1}^K \beta_k \hat{p}_{Y|X}^{(k)}(\cdot|x)\) 为软伪标签向量。

损失函数 / 训练策略¶

交替优化三个变量（Algorithm 1）：

更新对抗特征 \(z'\)：固定 \(\theta, \beta\)，对特征做投影梯度上升，在 \(\epsilon_1\)-球内寻找最大化损失的扰动（类似对抗训练）
更新混合权重 \(\beta\)：固定 \(\theta, z'\)，使用指数化梯度上升 + 投影到 \(\epsilon_2\)-球内，给损失较大的条件估计更高权重
更新模型参数 \(\theta\)：固定 \(z', \beta\)，标准梯度下降最小化损失

核心直觉：\(\beta\) 的更新创建条件分布的对抗性混合，\(\theta\) 的更新迫使分类器对这种对抗性混合具有鲁棒性。

实验关键数据¶

主实验¶

实验1：数字识别任务（MNIST/SVHN/USPS）

方法	SVHN→MNIST (100)	SVHN→MNIST (10)	MNIST→USPS (100)	USPS→MNIST (100)
ERM	59.6	-	63.4	60.4
DANN	66.0	61.2	82.0	74.8
CDAN	63.4	56.9	80.8	58.3
MCD	79.1	61.3	89.3	96.1
Ours (STAR)	94.4	91.3	95.6	97.3

目标数据仅10样本/类时，Ours(STAR) 仍达91.3%（SVHN→MNIST），远超所有基线。

实验2：虚假相关性基准（Waterbirds/CelebA/CMNIST）

方法	Waterbirds	CelebA	CMNIST
ERM	48.4	35.5	0.9
CORAL	50.9	31.7	1.7
MCD	59.0	30.7	1.9
GroupDRO (需组标签)	61.4	63.0	3.4
Ours (ERM)	87.3	85.0	7.5

相比ERM，Waterbirds +38.9%，CelebA +49.5%。无需组标签即大幅超越GroupDRO。

消融实验¶

超参数敏感性：\(\epsilon_1\) 和 \(\epsilon_2\) 的热力图显示，中等不确定性（\(\epsilon_1 \in \{0.2,0.4\}\), \(\epsilon_2 \geq 0.2\)）时性能稳定，存在宽广的最优平台
目标数据极度稀缺时：\(\epsilon_1\) 的影响更显著，因为协变量分布估计更不可靠；\(\epsilon_2\) 可设为较大值而不影响稳定性
LODO-CV验证：不依赖标签目标验证数据的*Ours版本虽略低，但仍超越所有基线

关键发现¶

与CDAN结合可在SVHN→MNIST上提升+29.1%
方法在目标数据从100降到10样本时性能下降远小于基线方法
协变量鲁棒半径 \(\epsilon_1\) 在数据稀缺时至关重要，条件混合半径 \(\epsilon_2\) 较为稳定

亮点与洞察¶

双层不确定性建模：同时考虑协变量和条件分布的不确定性，是对单一DRO方法的重要推广
无需组标签：与GroupDRO不同，本方法不需要知道数据的组/子群体信息
即插即用：可与CDAN、STAR等现有UDA方法无缝结合，作为后处理鲁棒化模块
单源到多源的统一：通过子采样巧妙将单源问题转化为多源框架

局限性 / 可改进方向¶

实验仅覆盖视觉基准（数字识别、spurious correlation），未验证NLP或时序数据
需要小量标签目标验证数据进行超参数选择（虽然LODO-CV可替代）
条件分布估计依赖预训练特征提取器的质量
子采样数 \(K=10\) 是固定选择，自适应选择策略可能进一步提升
计算开销来自 \(K\) 个独立logistic回归 + minimax优化的交替迭代

评分¶

维度	分数
新颖性	★★★★☆
技术深度	★★★★☆
实验充分性	★★★★☆
写作质量	★★★★☆
实用价值	★★★★☆