Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation¶

会议: NeurIPS 2025 arXiv: 2510.25279 代码: 无领域: 图像生成 / 扩散模型 / 域适应 关键词: Source-Free Domain Adaptation, 扩散模型, 伪目标域生成, 渐进式优化, 语义变换

一句话总结¶

提出 DPTM 框架，利用潜在扩散模型对不可信目标样本进行语义变换，生成伪目标域并通过渐进式重建机制迭代缩小与真实目标域的差距，在大域偏移场景下比现有 SFDA SOTA 提升高达 18.6%。

研究背景与动机¶

Source-Free Domain Adaptation (SFDA) 要求在仅有预训练源模型和无标注目标数据的条件下实现域适应。现有方法分为两类，均受限于源-目标域差异：

非生成式方法：依赖源模型产生的伪标签，但在大域偏移场景下伪标签大量不可靠（如 Office-Home 上 Ar→Pr 仅约 60%），性能极不稳定
生成式方法：生成伪源域再转化为标准 UDA 问题，但生成过程引入无关域特征，反而扩大源-目标域差距

关键洞察：两类方法的根本瓶颈都是源-目标域偏移。作者提出一种全新范式——直接生成伪目标域而非伪源域，从源头消除域差距的根本限制。

方法详解¶

整体框架¶

DPTM 由三个核心组件构成，通过 R 次渐进迭代执行：

信任集/非信任集划分：基于预测不确定性将目标数据分为可信赖子集 V 和不可信赖子集 U
非信任集操纵策略：用扩散模型将 U 中样本语义变换到新分配类别，同时保持目标域分布特征
渐进式重建机制：迭代减小伪目标域与真实目标域的差距

关键设计¶

信任集/非信任集划分¶

使用目标模型预测的熵 H 作为不确定性度量，设置阈值 E 划分： - H ≤ E 的样本加入信任集 V，直接用伪标签监督训练 - H > E 的样本加入非信任集 U，进行扩散操纵处理

为非信任集每个样本均匀分配新类别标签（ŷ_l = l mod ⌊|U|/C⌋），确保类别均衡，丢弃尾部残余样本。

Target-guided Initialization（目标域引导初始化）¶

基于扩散模型采样起点对生成结果有重大影响的发现，利用 FFT 分频构造起点： - 从原始非信任样本 x_l^u 提取低频分量 F_x^L = FFT(x) ⊙ H（包含域特征如风格、纹理） - 从语义中性的高斯噪声 I_G 提取高频分量 F_IG^H = FFT(I_G) ⊙ (1-H)（避免原样本语义泄漏） - 组合后 IFFT 得到语义中性但保留目标域特征的伪图像 x̃ - 编码到潜空间 ẑ₀ = E(x̃)，加 T 步 DDPM 前向噪声得到采样起点 z_T

Semantic Feature Injection（语义特征注入）¶

在去噪每个时间步 t 执行 zigzag 自反射操作： - 先去噪 z_t → z_{t-1} - 通过 DDIM inversion 将分配标签 ŷ_l 的语义注入 z_{t-1} → z̃_t - 使用引导尺度 γ₂ 的 classifier-free guidance 确保语义对齐 - 仅提取 z̃_t 的高频分量（含语义信息），丢弃低频（可能含域噪声伪影）

Domain-specific Feature Preservation（域特征保留）¶

在每个时间步组合两部分频率分量： - 高频：来自语义注入的 F_{z̃t}^H（目标类别语义） - 低频：从 ẑ₀ 加 t 步噪声后提取 F^L（目标域分布特征） - IFFT 合成增强潜变量 z̃'_t，同时保有语义和域特征

渐进式重建机制¶

进行 R 次迭代优化： - 第 r 次迭代后用更新的目标模型重新划分 V^(r+1) 和 U^(r+1) - 随模型改善 |V^(r+1)| > |V^(r)|，非信任集逐渐缩小 - 操纵量减少→域差距减小→模型进一步改善，形成正反馈循环

损失函数 / 训练策略¶

信任集与操纵后的非信任集合并构成伪目标域 D_p = V ∪ U^m
在伪目标域上标准交叉熵监督微调目标模型
扩散模型：预训练 SD v1.5，512×512，20 步去噪
超参数：γ₁=5.5, γ₂=0, E=0.01, R=10
ResNet-50/101 作为适应模型，SGD 优化器，训练 15K-20K 步

实验关键数据¶

主实验¶

Office-31（ResNet-50）

方法	D→A	W→A	Avg
ProDe (ICLR25)	79.8	79.0	89.9
DM-SFDA	82.7	83.5	93.7
DPTM (Ours)	92.0	91.7	95.8

困难任务 D→A 和 W→A 分别提升 +9.3% 和 +8.2%。

Office-Home（ResNet-50，12 个 DA 任务）

方法	Ar→Cl	Pr→Cl	Rw→Cl	Avg
ProDe (ICLR25)	64.0	65.4	65.5	81.1
DM-SFDA	68.5	69.6	68.5	79.5
DPTM	86.7	86.4	87.1	91.2

比 ProDe 平均提升 +10.1%，困难 →Cl 任务提升 20%+。

DomainNet-126（ResNet-50，12 个任务）

方法	C→P	Avg
CPGA	61.2	67.6
ProDe	79.3	81.5
DPTM	85.6	85.2

消融实验¶

阈值 E 的影响（Office-Home, R=10）

E	Avg
0.001	80.7
0.005	86.7
0.01	91.2

较大 E 将更多样本归入非信任集操纵，效果更好。

操纵策略组件消融：缺少任何一个（Target-guided Init / Semantic Injection / Domain Preservation）都导致语义对齐或域保持失败。SD15 和 SDXL 性能相当（均 75.6% Avg），SD15 更高效。

关键发现¶

大域偏移（如 Rw→Cl）提升最为显著，验证伪目标域策略对域差距的根本性解决
渐进式重建中信任集不断扩大，体现自我改善正反馈
频域分离有效解耦语义和域特征，三个操纵组件缺一不可

亮点与洞察¶

范式创新：首次提出生成伪目标域的 SFDA 策略，从根本上突破域偏移瓶颈
频域设计精妙：FFT 低频=域特征、高频=语义特征的分离贯穿整个方法
渐进式自我改善：非信任集随迭代缩小的正反馈，无需额外数据即可持续优化
困难场景表现突出：在其他方法通常失败的大域偏移场景实现最大增益（18.6%）

局限性 / 可改进方向¶

依赖预训练扩散模型（SD v1.5），计算和存储开销大
阈值 E 和迭代次数 R 需要调优，不同数据集最优设置不同
仅在分类任务验证，可扩展到检测、分割等下游任务
扩散生成的 512×512 分辨率可能限制在更高分辨率任务上的表现

评分¶

新颖性：⭐⭐⭐⭐⭐（伪目标域生成范式全新，频域分离原创性强）
技术深度：⭐⭐⭐⭐⭐（扩散模型+频域操作+渐进式优化深度融合）
实验充分性：⭐⭐⭐⭐⭐（4 个基准、21 个对比方法、详尽消融）
实用性：⭐⭐⭐⭐（效果显著但计算开销较高）
表达清晰度：⭐⭐⭐⭐（方法复杂但分模块表述清晰）