Bridging Generalization Gap of Heterogeneous Federated Clients Using Generative Models¶

会议: ICLR 2026
arXiv: 2508.01669
代码: 无
领域: 联邦学习 / 生成模型
关键词: 模型异构联邦学习, 变分转置卷积, 合成数据微调, 特征分布对齐, 通信效率

一句话总结¶

FedVTC 提出在模型异构联邦学习中，各客户端通过变分转置卷积网络（VTC）从聚合的特征分布统计量中生成合成数据来微调本地模型，无需公共数据集即可显著提升泛化能力，同时降低通信和内存开销。

研究背景与动机¶

领域现状：联邦学习中数据异质性导致本地模型泛化能力差。传统方法通过正则化或权重调整来改善，但都假设客户端模型架构相同
现有痛点：
知识蒸馏方法需要公共数据集，实际中通常不可用
在特征空间做知识蒸馏只能去偏分类头，无法改善特征提取器
原型共享方法只正则化特征提取器而忽略分类头
代理模型方法通信和内存开销大
核心矛盾：模型异构意味着无法共享参数进行聚合，但客户端仍需从全局信息中获益以提升泛化
本文要解决什么：在不依赖公共数据集、不共享模型参数的前提下，同时去偏特征提取器和分类头
切入角度：客户端只共享特征分布的统计量（均值+协方差），用它们指导生成合成数据来微调完整模型
核心 idea 一句话：用变分转置卷积从全局特征分布中生成合成图像，对本地模型做全模型微调，同时去偏特征提取器和分类头

方法详解¶

整体框架¶

每个客户端 \(k\) 有本地模型 \(f_k = h_k \circ g_k\)（特征提取器+分类头）和 VTC 模型 \(\psi_k\)。训练流程：(1) 本地训练 \(f_k\) 和 \(\psi_k\)；(2) 向服务器上传类别均值原型 \(\mathbf{c}_k^y\) 和标准差 \(\boldsymbol{\sigma}_k\)；(3) 服务器聚合得到全局原型 \(\mathbf{c}^y\) 和全局标准差 \(\boldsymbol{\sigma}\)；(4) 客户端从全局分布采样隐变量，用 VTC 生成合成数据；(5) 用合成数据微调本地模型。

关键设计¶

变分转置卷积网络 (VTC):
做什么：从低维高斯隐变量生成合成图像样本
核心思路：类似 VAE 的解码器，但用转置卷积作为上采样架构。输入 \(\mathbf{v} = \mathbf{z} + \boldsymbol{\sigma}_k \odot \boldsymbol{\epsilon}\)（重参数化技巧），输出合成图像 \(\mathbf{x}' = \psi_k(\mathbf{v})\)
训练目标：最大化 ELBO = 重建损失 + KL 散度（将局部特征分布对齐到全局原型）
分布匹配正则化 (DM Loss):
做什么：增强 VTC 对不同输入隐变量的鲁棒性
核心思路：引入 Distribution Matching 损失，确保 VTC 在面对来自全局分布（而非仅本地分布）的隐变量时也能生成高质量样本
设计动机：VTC 在本地训练时只见过本地特征分布，如果不做正则化，面对全局分布采样的隐变量时生成质量会下降
全模型微调策略:
做什么：用合成数据对本地模型 \(f_k\) 做全模型微调（不仅仅是分类头）
核心思路：合成数据经过整个模型的前向传播，因此可以同时去偏特征提取器和分类头
设计动机：vs 特征空间蒸馏只去偏分类头，vs 原型共享只去偏特征提取器——FedVTC 通过图像级合成数据实现两者统一
通信效率:
做什么：客户端只与服务器交换特征分布统计量
传输内容：类别均值原型 \(\mathbf{c}_k^y \in \mathbb{R}^p\) + 标准差 \(\boldsymbol{\sigma}_k \in \mathbb{R}^p\)
通信量：远小于传输模型参数或完整生成模型

损失函数 / 训练策略¶

VTC 训练损失：\(\mathcal{L}_e = \mathcal{L}_{rc} + D_{KL} + \mathcal{L}_{DM}\)
重建损失：\(\mathcal{L}_{rc} = \|\mathbf{x}' - \mathbf{x}\|_2^2\)
KL 散度：对齐局部特征分布到全局原型
本地模型微调：合成数据上的交叉熵损失
VTC 和本地模型交替训练，避免额外内存消耗

实验关键数据¶

主实验 — 模型异构 FL 泛化准确率¶

方法	MNIST	CIFAR-10	CIFAR-100	Tiny-ImageNet
FedGH (表示共享)	中等	中等	低	低
FedKD (知识蒸馏)	需公共数据	需公共数据	需公共数据	需公共数据
FedVTC	最高	最高	最高	最高

消融实验¶

配置	泛化准确率
FedVTC (完整)	最优
w/o DM Loss	下降（VTC 对全局分布采样不鲁棒）
w/o 全模型微调（只微调分类头）	显著下降
w/o KL 对齐	显著下降

关键发现¶

全模型微调 vs 部分对齐：用合成数据微调整个模型比仅对齐特征空间或分类头效果好很多
DM Loss 至关重要：没有 DM Loss，VTC 生成的合成数据质量在全局分布采样下严重退化
通信效率：FedVTC 的通信量远低于需要传输模型参数或代理模型的方法
在大规模数据集（Tiny-ImageNet）上优势更明显：说明方法的可扩展性好

亮点与洞察¶

合成数据作为知识传递媒介：不传模型参数、不传原始数据，而是通过共享分布统计量+本地生成合成数据来间接传递全局知识——巧妙地在隐私保护和知识共享间取得平衡
统一去偏两个组件：之前的方法要么只去偏特征提取器要么只去偏分类头，FedVTC 通过图像级操作自然统一
轻量设计：VTC 是简单的转置卷积网络，与本地模型交替训练，不需要额外 GPU 内存

局限性 / 可改进方向¶

VTC 生成的图像质量可能较低（简单转置卷积 vs 扩散模型等更强的生成器）
假设每个类别的特征分布为高斯，真实分布可能更复杂
特征维度 \(p\) 较高时，协方差估计可能不准确
未考虑隐私攻击——特征均值和协方差是否可以被用来推断原始数据？

评分¶

新颖性: ⭐⭐⭐⭐ VTC 作为联邦学习中的合成数据生成器是新颖的组合
实验充分度: ⭐⭐⭐⭐ 4 个数据集 + 多个异构基线 + 消融，较为充分
写作质量: ⭐⭐⭐⭐ 逻辑清晰，对比清楚
价值: ⭐⭐⭐⭐ 解决了模型异构 FL 的实际痛点，通信效率高