跳转至

FedDifRC: Unlocking the Potential of Text-to-Image Diffusion Models in Heterogeneous Federated Learning

会议: ICCV 2025
arXiv: 2507.06482
代码: https://github.com/hwang52/FedDifRC
领域: 图像生成
关键词: 联邦学习, 数据异质性, 扩散模型表示, 对比学习, 一致性正则化

一句话总结

首次将预训练文本到图像扩散模型(Stable Diffusion)的内部表示引入联邦学习,提出 FedDifRC 框架,通过文本驱动的扩散对比学习(TDCL)和噪声驱动的扩散一致性正则化(NDCR)两个互补模块,有效缓解数据异质性问题,在多种 non-iid 场景下显著提升全局模型性能。

研究背景与动机

联邦学习(FL)面临的核心挑战之一是数据异质性(non-iid):各客户端的本地数据分布差异导致局部模型优化方向不一致,使全局模型收敛缓慢且不稳定。

现有解决方案的局限: - 客户端优化方法(FedProx、SCAFFOLD 等):通过限制本地更新与全局模型的偏差来减少梯度不一致性,但无法从根本上解决局部模型过拟合本地分布的问题 - 服务器聚合方法(FedNova 等):改进全局聚合策略,但参数偏差仍在逐步扩大 - 基于合成数据的方法:用扩散模型生成合成数据增强训练,但合成数据仍可能使本地模型过拟合局部域分布,异质性问题并未根本解决

核心洞察:预训练的 Stable Diffusion 模型蕴含丰富的视觉语义表示能力。作者通过 t-SNE 可视化(Fig. 2)发现,即使未在特定数据集上训练,SD 模型的 UNet 解码器在适当的时间步和层级上就能自然地将不同类别的样本聚类。这启发了两个关键观察:

扩散模型的广泛通用知识可增强 FL 的局部语义多样性(→ TDCL)

扩散模型中关于语义对象的平滑对应关系是 FL 的自然引导信号(→ NDCR)

方法详解

整体框架

FedDifRC 在标准 FL 流程(FedAvg)基础上,在每个客户端的本地训练中添加两个基于预训练 SD 模型的正则化模块。SD 模型参数在整个训练过程中完全冻结,仅用于提取表示。总体损失函数为:

\[\mathcal{L} = \mathcal{L}_{TDCL} + \mathcal{L}_{NDCR} + \mathcal{L}_{CE}\]

关键设计

  1. 条件扩散表示(Conditional Diffusion Representations)

    • 功能:利用 SD 模型的条件生成反馈,为每个样本构建丰富的类别相关语义表示
    • 核心思路:将样本 \(x_i\) 的特征编码 \(\mathbf{c}_i = h_k(x_i)\) 作为条件注入 SD 模型,配合文本提示 \(\mathcal{P}_{y_i}\) = "a photo of a [类别名]",从 UNet 解码器第 2-4 层提取特征图,经 PCA 降维后拼接为融合特征 \(\widetilde{\mathcal{F}}_i\)
    • 设计动机:K-Means 聚类(Fig. 3)和 PCA 可视化(Fig. 4)表明,融合多层特征能同时捕获高层语义和低层纹理信息,比单层特征更全面
  2. 文本驱动扩散对比学习(TDCL)

    • 功能:构建基于扩散表示的跨模态对比学习,增强局部模型的类别判别能力
    • 核心思路:对每个样本的嵌入 \(z_i\),以匹配文本提示生成的条件扩散表示 \(\widetilde{\mathcal{F}}_i\) 为正样本对,以不匹配文本提示生成的表示 \(\widetilde{\mathcal{F}}_{\mathcal{N}_i}\) 为负样本对,使用改进的 InfoNCE 损失:\(\mathcal{L}_{TDCL} = \log(1 + \frac{\sum_j \exp(s(z_i, \widetilde{\mathcal{F}}_j)/\tau)}{\exp(s(z_i, \widetilde{\mathcal{F}}_i)/\tau)})\)
    • 相似度计算使用归一化余弦相似度,归一化因子 \(\mathcal{U}\) 为所有样本嵌入与当前扩散表示的平均距离
    • 设计动机:正负样本对来自同一输入但不同文本条件的扩散模型反馈,提供了丰富的域间变化信息,帮助局部模型学习更通用的类别区分知识
  3. 噪声驱动扩散一致性正则化(NDCR)

    • 功能:利用去噪扩散表示作为稳定的收敛目标,约束局部模型的特征空间
    • 核心思路:对输入 \(x_i\) 添加 \(t\) 步噪声后输入 SD 模型进行去噪,提取 UNet 解码器特征融合为 \(\widetilde{\mathcal{H}}_i\),用 L2 损失对齐:\(\mathcal{L}_{NDCR} = \sum_{q=1}^{d}(z_{i(q)} - \widetilde{\mathcal{H}}_{i(q)})^2\)
    • 设计动机:TDCL 的条件扩散表示依赖于动态生成的条件,每轮变化,无法提供稳定的收敛信号。去噪扩散表示来自 SD 模型的固定去噪过程,作为"虚拟教师"提供一致的特征级对齐目标

损失函数 / 训练策略

  • 总损失:\(\mathcal{L} = \mathcal{L}_{TDCL} + \mathcal{L}_{NDCR} + \mathcal{L}_{CE}\),其中 \(\mathcal{L}_{CE}\) 是标准交叉熵
  • SD 模型完全冻结不参与训练,仅用作表示提取器
  • 可扩展为自监督方案:TDCL 使用 "a photo of a similar object" 作为正样本提示,从 Tiny-ImageNet 类别名中随机选取用于负样本提示;NDCR 使用 "a photo of a visual object" 生成去噪表示
  • 作者提供了非凸目标下的收敛性理论分析,给出了通信轮数 \(R\) 和学习率 \(\eta\) 的收敛条件

实验关键数据

主实验(CIFAR-10,不同 non-iid 设置,准确率%)

方法 NID1_0.05 NID1_0.2 NID1_0.5 NID2 AVG
FedAvg 78.27 84.65 86.11 72.60 80.41
FedProx 78.42 84.59 72.81
MOON 80.79 86.10 73.35
FedNH 80.25
FedDifRC 83.14 88.27 89.31 76.45 84.29

消融实验(CIFAR-10,NID1_0.2 和不同层级特征)

配置 NID1_0.05 NID1_0.2 NID1_0.5 NID2 说明
Baseline (FedAvg) 78.27 84.65 86.11 72.60 无扩散模型辅助
+ TDCL only 81.39 86.03 88.16 75.67 对比学习有效
+ NDCR only 80.35 86.40 87.54 75.33 一致性正则有效
+ TDCL + NDCR 83.14 88.27 89.31 76.45 两模块互补
层 L=2 only 87.28 75.73 高层语义
层 L=3 only 87.81 75.61 低层纹理
融合 L={2,3,4} 88.27 76.45 融合效果最优(+0.46)

关键发现

  • TDCL 和 NDCR 是互补的:单独使用各带来 ~2% 提升,组合使用提升 ~4%
  • 融合多层特征(L={2,3,4})持续优于任何单层特征,但改善幅度有限(+0.28~0.72%)
  • 去噪时间步 \(t=300\) 是最优选择(Fig. 6 左),过大(t=999)导致表示模糊不可分
  • 可扩展到长尾分布、域偏移等多种异质性场景,均有显著效果
  • 自监督方案(无标签数据)也能有效工作

亮点与洞察

  • 首次系统探索将预训练扩散模型的内部表示用于增强联邦学习,开辟了 FL 的新方向
  • 通过 t-SNE 和 K-Means 的详细分析(Fig. 2-4),为"扩散模型是有效的表示学习器"提供了直观验证
  • 从理论角度证明了 SD 模型的去噪过程等价于学习数据主成分空间的线性自编码器(Eq. 6),为利用扩散表示提供了理论基础
  • TDCL 和 NDCR 分别解决了对比学习中正/负样本构建和收敛稳定性两个不同层面的问题,设计思路清晰

局限与展望

  • 需要在每个客户端部署预训练 SD 模型进行推理,增加了客户端的计算和存储负担
  • PCA 降维的主成分数量(256/128)需要预定义,可能不是所有数据集的最优选择
  • 文本提示模板固定为 "a photo of a [class]",对细粒度类别可能不够表达力
  • 目前仅在图像分类任务上验证,未在目标检测、语义分割等下游任务上测试
  • 未探索更新型的扩散模型(如 DiT 架构)是否能提供更好的表示

相关工作与启发

  • DIFT 和 Diffusion Hyperfeatures 已证明扩散模型的中间特征是优秀的视觉表示,本文首次将此应用于 FL
  • 对比学习在 FL 中的应用(MOON、FedCR)已有探索,FedDifRC 的创新在于使用扩散模型作为对比学习的"锚点"
  • 这种"利用大型生成模型的表示来辅助判别式任务训练"的思路可以推广到其他分布式学习场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文