Federated Learning with Domain Shift Eraser¶

会议: CVPR 2025
arXiv: 2503.13063
代码: 无
领域: 优化
关键词: 联邦学习、域偏移、层分解、一致性正则化、双聚合

一句话总结¶

提出FDSE方法，将每层网络分解为域无关特征提取器（DFE，全局聚合增强共识）和域特异偏移消除器（DSE，个性化聚合保留本地特性），结合BN一致性正则化，在DomainNet上达到76.77%（超Ditto 1.6%），在Office-Caltech10上达到91.58%（超FedBN 4.6%）。

研究背景与动机¶

领域现状：联邦学习面临域偏移导致的特征空间不对齐——不同客户端的数据分布差异使得全局模型对某些客户端不适应。现有方法要么增强全局共识（FedAvg系列）、要么增强个性化（FedBN等），但很少同时兼顾。

现有痛点：FedAvg类方法通过权重平均促进共识但忽略个性化需求；FedBN类方法保留本地BN但全局共享层仍受域偏移干扰。两种策略的优势没有在细粒度层面被统一。

核心矛盾：联邦学习需要全局共识（跨客户端学习共享知识）和本地个性化（适应本地数据分布）的平衡，但现有方法在层级别上只能做单一选择。

本文目标 在每一层内部同时解耦和优化域无关特征（促进共识）和域特异特征（保留个性化）。

切入角度：将每层卷积分解为两个子模块——DFE提取域不变特征（通道数\(\lceil T/G \rceil\)，全局聚合），DSE用廉价1×1卷积捕获域特异偏移（扩展到\(T\)通道，个性化聚合）。

核心 idea：在每层内部将域无关和域特异特征解耦到两个子模块中，分别用全局共识聚合和相似性感知个性化聚合策略更新。

方法详解¶

整体框架¶

每层网络分为DFE（轻量主干，提取共享特征）和DSE（1×1卷积，消除域偏移）。训练时两者联合优化但分开聚合——DFE用FedAvg风格全局聚合，DSE用基于客户端间相似度的自注意力个性化聚合。BN一致性正则化将本地BN统计量拉向全局统计量。

关键设计¶

层分解（DFE + DSE）:
- 功能：同层内分离域无关和域特异特征
- 核心思路：DFE输出\(\lceil T/G \rceil\)个通道（G为分组数），提取域不变的基础特征；DSE用1×1卷积将通道扩展到\(T\)，捕获域特异的偏移模式并"消除"它。两者级联：输入→DFE→DSE→输出。DFE参数量占比由\(G\)控制，\(G\)越大DSE越轻量
- 设计动机：1×1卷积参数极少（"cheap operation"），DSE用最少参数就能编码域特异信息，大部分参数留给可全局共享的DFE
双聚合策略:
- 功能：DFE最大化全局共识，DSE保留本地个性化
- 核心思路：DFE用FedAvg聚合（\(L_2\)范数最小化公平共识）；DSE用相似性感知自注意力聚合——计算客户端间DSE参数的余弦相似度，相似客户端的DSE互相学习更多。温度参数\(\tau\)控制个性化程度
- 设计动机：域无关特征应该完全共享（FedAvg最优）；域特异特征不应简单平均（会丢失个性化），而应让相似域的客户端互相学习
BN一致性正则化:
- 功能：减少本地BN与全局BN统计量的偏差
- 核心思路：正则化损失\(\lambda \sum_l (\|\mu_l^{local} - \mu_l^{global}\|^2 + \|\sigma_l^{local} - \sigma_l^{global}\|^2)\)，权重按层指数衰减\(\beta=0.001\)。拉近本地BN统计量到全局，但不完全对齐（保留个性化空间）
- 设计动机：BN统计量直接反映数据分布，轻微对齐可以减少域偏移但过度对齐会损害个性化

损失函数 / 训练策略¶

总损失 = 任务交叉熵 + \(\lambda \cdot\) BN一致性正则化。500轮通信，学习率每轮衰减0.998。DomainNet/PACS用5个本地epoch，Office-Caltech10用1个。

实验关键数据¶

主实验¶

数据集	FDSE (All/Avg)	Ditto	FedBN	FedAvg
DomainNet	76.77/74.50	75.18/72.82	74.75/-	69.17/-
Office-Caltech10	87.15/91.58	-/-	83.08/87.01	-/-
PACS	83.81/82.17	82.02/80.03	-/-	-/-

FDSE在所有数据集上一致最优，在DomainNet上超越20+方法。

关键发现¶

T-SNE可视化确认FDSE的特征空间类别分离度更好、域对齐更好
在几乎所有客户端上都有提升（蜘蛛图），说明不是以牺牲某些客户端为代价
收敛速度虽不是最快，但最终精度最高

亮点与洞察¶

层内解耦而非层间分配：之前方法在层级别决定"这层共享还是个性化"，FDSE在每层内部同时做两件事，粒度更细
1×1卷积作为域偏移消除器：极其轻量的参数量就能捕获域特异信息，大部分参数保留给可共享的DFE

局限与展望¶

分组参数\(G\)需要手动设定
BN一致性权重\(\lambda\)对性能敏感
仅在CV分类任务上验证

评分¶

新颖性: ⭐⭐⭐⭐ 层内解耦的想法新颖，DFE+DSE设计简洁
实验充分度: ⭐⭐⭐⭐ 20+基线、3个数据集、可视化分析
写作质量: ⭐⭐⭐⭐ 动机和方法阐述清晰
价值: ⭐⭐⭐⭐ 对联邦域泛化有实质推动