Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment¶

会议: CVPR 2025
arXiv: 2406.04295
代码: https://github.com/SHI-Labs/Diffusion-Driven-Test-Time-Adaptation-via-Synthetic-Domain-Alignment
领域: 扩散模型
关键词: 测试时自适应, 扩散模型, 域对齐, 合成域, 数据适配

一句话总结¶

本文揭示了扩散驱动TTA方法中源域与合成域之间存在隐性不对齐问题，提出Synthetic-Domain Alignment (SDA)框架，通过Mix of Diffusion (MoD)技术将源模型和目标数据同时对齐到同一个合成域，在分类、分割和多模态大语言模型上均取得了一致的性能提升。

研究背景与动机¶

领域现状：测试时自适应（TTA）是一个新兴研究方向，旨在改善源域预训练模型在未见过的目标域上的表现。传统TTA方法通过不断更新模型权重来适配目标数据流，但这种方式对目标数据的数量和顺序敏感。近年来，扩散模型驱动的TTA方法（如DiffPure、DDA、GDA）转而适配输入数据而非模型权重，通过无条件扩散模型将目标域数据映射到合成域。

现有痛点：尽管扩散驱动TTA方法在视觉上生成的合成数据与源数据难以区分，但作者发现对于深度网络而言，合成数据实际上与源数据存在显著的域不对齐。实验表明，即使在ImageNet源数据上应用DDA进行扩散适配（不涉及域迁移），Swin-B和ConvNeXt-B的准确率分别下降了超过21.8%和18.8%。

核心矛盾：现有扩散驱动TTA方法的理论假设是将目标数据映射回源域，但实际上映射的终点是扩散模型的合成域，而非真正的源域。源域与合成域之间存在隐性gap——这种gap肉眼不可见，但深度网络对此非常敏感。

本文目标 (1) 如何量化和理解源域-合成域的不对齐问题？(2) 如何在不访问源数据的前提下，将模型也适配到合成域？(3) 如何处理条件扩散模型和无条件扩散模型之间的合成域差异？

切入角度：既然扩散适配后的目标数据不可避免地落在合成域中，那么不妨反过来将源模型也对齐到相同的合成域，把跨域TTA问题转化为域内预测问题。

核心 idea：不再试图将数据拉回源域，而是将模型和数据同时对齐到扩散模型的合成域，消除域间gap。

方法详解¶

整体框架¶

SDA框架包含三个阶段：(1) 源域模型预训练阶段——在源数据上正常训练源模型；(2) 源→合成的模型适配阶段——通过MoD技术生成合成数据集，将源模型微调到合成域模型；(3) 目标→合成的数据适配阶段——使用无条件扩散模型将目标数据映射到合成域。最终，合成域的数据输入合成域模型进行推理，并与源模型对原始目标数据的预测进行集成。

关键设计¶

源-合成域不对齐的发现与量化:
- 功能：揭示扩散驱动TTA中被忽视的域不对齐问题
- 核心思路：在ImageNet验证集上，先对源域数据进行扩散加噪-去噪操作（即只涉及source→synthetic，不涉及target→source），然后用源模型在去噪后的数据上测试。结果显示随着时间步\(t\)的增大，准确率单调下降。在\(t \geq 500\)的TTA合理范围内，ConvNeXt-B准确率从83.4%降至41.5%-65.1%，证实了合成域与源域的巨大差距。
- 设计动机：虽然合成数据和源数据在视觉上几乎无差别，但深度网络对这种隐性域差异极其敏感，这正是之前方法性能受限的根本原因。
Mix of Diffusion (MoD) 合成数据生成:
- 功能：生成与无条件扩散模型合成域对齐的带标签合成数据集
- 核心思路：包含两步操作。第一步，使用条件扩散模型（如DiT）按类别标签生成合成数据 \(x_{0,c}^{syn}\)，得到带标签的合成数据集。第二步，对生成的条件合成数据进行加噪（到时间步\(t^*\)）再用无条件扩散模型去噪，将数据从条件合成域 \(p_{0,c}^{syn}\) 对齐到无条件合成域 \(p_{0,u}^{syn}\)。这一步利用了KL散度随加噪步数单调递减的性质，在高噪声水平下两个合成域的分布趋同。
- 设计动机：条件扩散模型可以生成带标签数据，但其合成域与无条件扩散模型的合成域存在差异（架构和训练方式不同）。通过第二步的加噪-去噪操作，消除两个合成域之间的gap，确保微调数据与测试时数据适配的域完全一致。
合成域模型微调与集成推理:
- 功能：将源模型对齐到合成域并进行鲁棒推理
- 核心思路：用MoD生成的50K合成数据对源模型进行15个epoch的微调，得到合成域模型\(f'\)。推理时，将源模型\(f\)对原始目标数据的预测\(q(y|x_0^{trg})\)与合成域模型\(f'\)对适配后数据的预测\(q'(y|x_{0,u}^{syn})\)进行概率集成：\(\hat{y} = \arg\max_y (q(y|x_0^{trg}) + q'(y|x_{0,u}^{syn}))\)。
- 设计动机：扩散适配偶尔会产生识别度低于原始数据的样本，集成策略可以取两者之长。合成数据只需生成一次即可适配不同的源模型，边际成本很低。

损失函数 / 训练策略¶

模型适配阶段使用标准分类交叉熵损失进行微调。合成数据生成一次后可复用于不同源模型。分割任务和MLLM上也采用类似策略：用条件扩散模型生成带分割标注或VQA标注的合成数据，经MoD处理后微调。

实验关键数据¶

主实验¶

模型	Source	MEMO	DiffPure	GDA	DDA	SDA (Ours)
ResNet-50	18.7	24.7	16.8	31.8	29.7	32.5 (+2.8)
Swin-T	33.5	29.5	24.8	42.2	40.0	42.5 (+2.5)
ConvNeXt-T	39.3	37.8	28.8	44.8	44.2	47.0 (+2.8)
Swin-B	40.5	37.0	28.9	-	44.5	47.4 (+2.9)
ConvNeXt-B	45.6	45.8	32.7	-	49.4	51.9 (+2.5)

ImageNet-C severity=5，15个corruption平均准确率。SDA在所有模型上一致超越DDA 2.5-2.9%。

消融实验¶

配置	Swin-B (t=700)	ConvNeXt-B (t=700)	说明
Source-Synthetic (Misaligned)	55.7	60.3	源模型直接测合成数据
Synthetic-Synthetic (Aligned, SDA)	65.0	67.4	对齐后的模型测合成数据
Δ	+9.3	+7.1	域对齐带来的提升
仅条件合成域微调 \(f_c'\)	低于 \(f_u'\)	低于 \(f_u'\)	证实条件/无条件合成域存在差异

关键发现¶

SDA在ImageNet-C的15个corruption中的14个上超越DDA，唯一例外是contrast corruption。
域对齐的提升随时间步\(t\)增大而增大（\(t=500\)时+6.0%，\(t=1000\)时+9.9%），说明合成域偏移越大，对齐收益越高。
SDA框架也适用于分割任务（DeepLabv3在PASCAL VOC-C上提升1.2% mIOU）和MLLM（LLaVA在corrupted VQA上有改善），展现了通用性。
合成数据只需生成一次，不同源模型可以复用。

亮点与洞察¶

隐性域不对齐的发现非常精准：虽然合成数据视觉上与源数据无异，但深度网络的特征空间对此极度敏感。这个insight揭示了扩散驱动TTA方法的根本瓶颈，对整个领域有启发意义。
MoD是一个优雅的对齐机制：通过"加噪到高噪声水平→用目标扩散模型去噪"这一简单操作，将任意分布对齐到目标合成域，避免了复杂的域适配训练。
框架的正交性很有价值：SDA关注"模型→合成域"的对齐，与DDA/GDA关注"数据→合成域"的适配互不冲突，未来可以直接与更好的数据适配方法组合获得更大提升。

局限与展望¶

SDA需要额外的50K合成数据生成和微调步骤，增加了前置开销（尽管只需一次）。
扩散适配本身的计算开销依然很高（每张图需要完整的加噪-去噪过程），限制了实时应用场景。
对于与源域差距极大的目标域（如跨模态），扩散模型本身的合成域可能也无法有效覆盖目标分布。
集成策略较为简单（概率加和），可以探索自适应加权或基于置信度的融合方案。

评分¶

新颖性: ⭐⭐⭐⭐ 核心insight（合成域≠源域）简单但深刻，MoD设计巧妙但技术手段相对直接
实验充分度: ⭐⭐⭐⭐⭐ 覆盖分类/分割/MLLM三类任务，多种模型架构，消融充分
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，问题→发现→方案的叙事链非常流畅
价值: ⭐⭐⭐⭐ 对扩散驱动TTA领域有重要启发，框架通用性强