跳转至

Bridging Generalization Gap of Heterogeneous Federated Clients Using Generative Models

会议: ICLR 2026
arXiv: 2508.01669
代码: 无
领域: 联邦学习 / 生成模型
关键词: 模型异构联邦学习, 变分转置卷积, 合成数据微调, 特征分布对齐, 通信效率

一句话总结

FedVTC 提出在模型异构联邦学习中,各客户端通过变分转置卷积网络(VTC)从聚合的特征分布统计量中生成合成数据来微调本地模型,无需公共数据集即可显著提升泛化能力,同时降低通信和内存开销。

研究背景与动机

  1. 领域现状:联邦学习中数据异质性导致本地模型泛化能力差。传统方法通过正则化或权重调整来改善,但都假设客户端模型架构相同
  2. 现有痛点
  3. 知识蒸馏方法需要公共数据集,实际中通常不可用
  4. 在特征空间做知识蒸馏只能去偏分类头,无法改善特征提取器
  5. 原型共享方法只正则化特征提取器而忽略分类头
  6. 代理模型方法通信和内存开销大
  7. 核心矛盾:模型异构意味着无法共享参数进行聚合,但客户端仍需从全局信息中获益以提升泛化
  8. 本文要解决什么:在不依赖公共数据集、不共享模型参数的前提下,同时去偏特征提取器和分类头
  9. 切入角度:客户端只共享特征分布的统计量(均值+协方差),用它们指导生成合成数据来微调完整模型
  10. 核心 idea 一句话:用变分转置卷积从全局特征分布中生成合成图像,对本地模型做全模型微调,同时去偏特征提取器和分类头

方法详解

整体框架

每个客户端 \(k\) 有本地模型 \(f_k = h_k \circ g_k\)(特征提取器+分类头)和 VTC 模型 \(\psi_k\)。训练流程:(1) 本地训练 \(f_k\)\(\psi_k\);(2) 向服务器上传类别均值原型 \(\mathbf{c}_k^y\) 和标准差 \(\boldsymbol{\sigma}_k\);(3) 服务器聚合得到全局原型 \(\mathbf{c}^y\) 和全局标准差 \(\boldsymbol{\sigma}\);(4) 客户端从全局分布采样隐变量,用 VTC 生成合成数据;(5) 用合成数据微调本地模型。

关键设计

  1. 变分转置卷积网络 (VTC):
  2. 做什么:从低维高斯隐变量生成合成图像样本
  3. 核心思路:类似 VAE 的解码器,但用转置卷积作为上采样架构。输入 \(\mathbf{v} = \mathbf{z} + \boldsymbol{\sigma}_k \odot \boldsymbol{\epsilon}\)(重参数化技巧),输出合成图像 \(\mathbf{x}' = \psi_k(\mathbf{v})\)
  4. 训练目标:最大化 ELBO = 重建损失 + KL 散度(将局部特征分布对齐到全局原型)

  5. 分布匹配正则化 (DM Loss):

  6. 做什么:增强 VTC 对不同输入隐变量的鲁棒性
  7. 核心思路:引入 Distribution Matching 损失,确保 VTC 在面对来自全局分布(而非仅本地分布)的隐变量时也能生成高质量样本
  8. 设计动机:VTC 在本地训练时只见过本地特征分布,如果不做正则化,面对全局分布采样的隐变量时生成质量会下降

  9. 全模型微调策略:

  10. 做什么:用合成数据对本地模型 \(f_k\) 做全模型微调(不仅仅是分类头)
  11. 核心思路:合成数据经过整个模型的前向传播,因此可以同时去偏特征提取器和分类头
  12. 设计动机:vs 特征空间蒸馏只去偏分类头,vs 原型共享只去偏特征提取器——FedVTC 通过图像级合成数据实现两者统一

  13. 通信效率:

  14. 做什么:客户端只与服务器交换特征分布统计量
  15. 传输内容:类别均值原型 \(\mathbf{c}_k^y \in \mathbb{R}^p\) + 标准差 \(\boldsymbol{\sigma}_k \in \mathbb{R}^p\)
  16. 通信量:远小于传输模型参数或完整生成模型

损失函数 / 训练策略

  • VTC 训练损失:\(\mathcal{L}_e = \mathcal{L}_{rc} + D_{KL} + \mathcal{L}_{DM}\)
  • 重建损失:\(\mathcal{L}_{rc} = \|\mathbf{x}' - \mathbf{x}\|_2^2\)
  • KL 散度:对齐局部特征分布到全局原型
  • 本地模型微调:合成数据上的交叉熵损失
  • VTC 和本地模型交替训练,避免额外内存消耗

实验关键数据

主实验 — 模型异构 FL 泛化准确率

方法 MNIST CIFAR-10 CIFAR-100 Tiny-ImageNet
FedGH (表示共享) 中等 中等
FedKD (知识蒸馏) 需公共数据 需公共数据 需公共数据 需公共数据
FedVTC 最高 最高 最高 最高

消融实验

配置 泛化准确率
FedVTC (完整) 最优
w/o DM Loss 下降(VTC 对全局分布采样不鲁棒)
w/o 全模型微调(只微调分类头) 显著下降
w/o KL 对齐 显著下降

关键发现

  • 全模型微调 vs 部分对齐:用合成数据微调整个模型比仅对齐特征空间或分类头效果好很多
  • DM Loss 至关重要:没有 DM Loss,VTC 生成的合成数据质量在全局分布采样下严重退化
  • 通信效率:FedVTC 的通信量远低于需要传输模型参数或代理模型的方法
  • 在大规模数据集(Tiny-ImageNet)上优势更明显:说明方法的可扩展性好

亮点与洞察

  • 合成数据作为知识传递媒介:不传模型参数、不传原始数据,而是通过共享分布统计量+本地生成合成数据来间接传递全局知识——巧妙地在隐私保护和知识共享间取得平衡
  • 统一去偏两个组件:之前的方法要么只去偏特征提取器要么只去偏分类头,FedVTC 通过图像级操作自然统一
  • 轻量设计:VTC 是简单的转置卷积网络,与本地模型交替训练,不需要额外 GPU 内存

局限性 / 可改进方向

  • VTC 生成的图像质量可能较低(简单转置卷积 vs 扩散模型等更强的生成器)
  • 假设每个类别的特征分布为高斯,真实分布可能更复杂
  • 特征维度 \(p\) 较高时,协方差估计可能不准确
  • 未考虑隐私攻击——特征均值和协方差是否可以被用来推断原始数据?

相关工作与启发

  • vs FedGH/FedTGP:只共享原型正则化特征提取器,忽略分类头;FedVTC 通过合成数据同时去偏两者
  • vs FedZKD/FedGen:在特征空间做知识蒸馏,只去偏分类头;FedVTC 在图像空间操作
  • vs FedMAN:传输超参数化代理模型,通信开销大;FedVTC 只传统计量

评分

  • 新颖性: ⭐⭐⭐⭐ VTC 作为联邦学习中的合成数据生成器是新颖的组合
  • 实验充分度: ⭐⭐⭐⭐ 4 个数据集 + 多个异构基线 + 消融,较为充分
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,对比清楚
  • 价值: ⭐⭐⭐⭐ 解决了模型异构 FL 的实际痛点,通信效率高