FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning¶

会议: CVPR2026 arXiv: 2602.21399 代码: Project Page 领域: 医学图像 / 联邦学习 关键词: 联邦学习, 梯度聚合, 数据异质性, 验证梯度, Fisher信息矩阵, 医学图像分类

一句话总结¶

FedVG 提出利用全局验证集上的逐层梯度范数为各客户端打分，梯度越平坦（范数越小）的客户端获得越高聚合权重，从而在高度数据异质性场景下显著提升联邦学习的泛化性能。

联邦学习中的客户端漂移问题：标准 FedAvg 按数据量加权聚合，忽略了客户端数据分布差异导致的模型漂移（client drift），在 non-IID 场景下全局模型性能严重下降。
数据量 ≠ 模型质量：现有方法假设数据量越大的客户端模型越可靠，但在异质分布下，拥有大量偏斜数据的客户端反而可能拖累全局模型。
过度强调表现差的客户端：部分方法对表现不佳的客户端赋予过高权重进行"补偿"，反而加剧了聚合偏差。
局部梯度的偏差性：仅依赖客户端本地数据计算的梯度天然偏向局部分布，无法客观反映客户端模型的泛化能力。
层间行为差异被忽视：不同层在 non-IID 场景下的收敛行为和漂移程度各不相同，尤其深层更容易受局部偏差影响，但现有方法很少进行逐层分析。
医疗领域的迫切需求：医疗影像数据天然分布在不同机构，受隐私法规限制无法集中共享，需要鲁棒的联邦学习方案来训练高质量诊断模型。

FedVG 在标准联邦学习流程的服务器端引入一个全局验证集 \(D_{\text{val}}\)（可由公开数据集构建），用于评估每个客户端模型的泛化能力：

逐层梯度范数计算：将客户端模型 \(\theta_k\) 分解为 \(L\) 层，计算每层在验证集上的梯度范数后取均值：

\[\bar{G}_k = \frac{1}{L} \sum_{\ell=1}^{L} \left\| \nabla_{\theta_k^{(\ell)}} \mathcal{L}_{\text{val}} \right\|\]

反比例打分：梯度范数越小（损失面越平坦）→ 泛化能力越强 → 聚合权重越高：

\[s_k = \frac{1/(\bar{G}_k + \epsilon)}{\sum_{j=1}^{K} 1/(\bar{G}_j + \epsilon)}\]

理论支撑：交叉熵梯度即负对数似然的 score function，其范数与 Fisher 信息矩阵的对角近似（Joint Fisher）成正比。小 Fisher 信息 → 平坦最小值区域 → 更好的泛化，这为 FedVG 提供了信息论基础。

FedVG 不修改客户端的本地训练过程，仅替换服务器端的聚合权重 \(s_k\)。可与 FedAvg、FedProx、Scaffold、FedDyn、FedAvgM、Elastic 等算法无缝集成（取均值或直接替换权重），作为即插即用模块使用。

客户端本地训练使用原始任务损失（如交叉熵），FedVG 本身不引入额外损失项，仅通过验证梯度范数调整聚合权重，保持客户端计算开销不变。

在 CIFAR-10（ResNet-18）、OrganAMNIST、COVID19（ResNet-50）上，以 Dirichlet \(\alpha \in \{100, 10, 1, 0.1, 0.05\}\) 控制异质性：

方法	CIFAR-10 (α=0.05)	OrganAMNIST (全部α)	COVID19 (α=0.05)
FedAvg	显著低于 FedVG	全面低于 FedVG	低于 FedVG
FedProx	低于 FedVG	低于 FedVG	低于 FedVG
Scaffold	中等	低于 FedVG	接近但低于 FedVG
FedDyn	显著低于 FedVG (p<0.05)	低于 FedVG	低于 FedVG
FedVG	最高/近最高	全部α最优	α=0.05最优

用 STL-10 和 CIFAR-100 作为外部验证集（与训练数据分布不同），在 α=0.1/0.05 下：

即使验证集存在分布偏移，FedVG 仍保持优于 baseline 的性能。

验证集类别不平衡：随着不平衡率 ρ→0，FedVG 始终优于 FedAvg，验证了对不平衡验证集的鲁棒性
范数类型：L1 和 L2 范数均能正确识别高质量客户端并赋予高权重，谱范数和 delta 范数效果较差；L1 (70.36%) 与 L2 (70.43%) 接近，均优于谱范数 (68.50%)
聚合粒度：模型级（默认）在 CIFAR-10/OrganAMNIST 上最优；层级/块级在 COVID19/DermaMNIST (ResNet-50) 上略有优势，最优粒度取决于架构和数据特性

方法	核心思路	与 FedVG 的区别
FedAvg	按数据量加权	忽略模型质量，高异质性下效果差
FedProx	近端正则化约束本地漂移	客户端侧修改，FedVG 仅修改服务器端
Scaffold	控制变量修正梯度	需额外通信控制变量，FedVG 无需
FedDyn	动态正则化对齐稳定点	统计显著低于 FedVG
Elastic	基于参数敏感度插值聚合	强 baseline 但 FedVG+Elastic 可进一步提升
FedMD/FedDF	用公开数据做知识蒸馏	公开数据用于训练/蒸馏，FedVG 仅用于计算验证梯度
FedNCL/FedMA	逐层聚合	关注层间对齐但未利用验证梯度打分