FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation¶
会议: CVPR 2026 arXiv: 2603.04890 代码: Chao2433/FedAFD 领域: AI安全 / 联邦学习 关键词: Multimodal Federated Learning, Adversarial Alignment, Feature Fusion, Knowledge Distillation, Model Heterogeneity
一句话总结¶
提出 FedAFD 框架,通过双层对抗对齐、粒度感知特征融合和相似度引导的集成蒸馏三阶段设计,在多模态联邦学习中同时提升异构客户端和服务器的模型性能。
研究背景与动机¶
多模态联邦学习(MFL)允许不同模态的客户端在不共享原始数据的前提下协作训练模型,但面临三大挑战:
- 模态/任务异构性:不同客户端可能处理不同模态(图像、文本)和不同任务(分类、检索),导致特征空间不一致,产生模型漂移
- 个性化不足:现有方法为提升全局模型性能往往牺牲了本地模型性能
- 模型异构性:不同客户端使用不同架构的编码器,无法直接进行参数级聚合
现有方法如 CreamFL 只关注全局模型性能,忽视了本地个性化,且在处理模态/任务差异时缺乏有效机制。FedAFD 的核心思路是通过"边缘-云"协作框架,同时增强全局和本地模型性能。
方法详解¶
整体框架¶
FedAFD 包含三个阶段的迭代训练: - 阶段①:服务器在公共数据集上训练并提取全局公共特征 - 阶段②:客户端接收全局表示和编码器,在私有数据上通过双层对抗对齐 + 粒度感知融合训练本地模型 - 阶段③:客户端在公共数据上提取本地特征并上传至服务器,服务器执行相似度引导的集成蒸馏更新全局模型
系统包含三类客户端:\(N_I\) 个单模态图像客户端(图像分类)、\(N_T\) 个单模态文本客户端(文本分类)、\(N_M\) 个多模态客户端(图文检索),以及一个公共多模态数据集 \(\mathcal{P}\)。
关键设计¶
- 双层对抗对齐(BAA):将客户端-服务器的表示不一致性建模为联邦域适应问题。每个客户端配备两个对抗判别器:
- 模态内判别器 \(\mathcal{D}_c^{in}\):区分同模态下的本地/全局表示(如 \(i_p^{c,k}\) vs \(i_p^{g,k}\))
- 跨模态判别器 \(\mathcal{D}_c^{cr}\):区分不同模态的本地/全局表示(如 \(i_p^{c,k}\) vs \(t_p^{g,k}\))
对抗损失为: $\(\mathcal{L}_{adv} = \frac{1}{|\mathcal{P}|}\sum_{k=1}^{|\mathcal{P}|}(\mathcal{L}_{in}^k + \mathcal{L}_{cr}^k)\)$ 其中 \(\mathcal{L}_{in}^k = \log \mathcal{D}_c^{in}(i_p^{g,k}) + \log(1-\mathcal{D}_c^{in}(i_p^{c,k}))\),跨模态类似。判别器最大化、编码器最小化该损失,从而减少客户端-服务器之间的表示分布差异。
- 粒度感知特征融合(GFF):BAA 对齐特征分布后,可能引入过多全局知识导致本地性能下降。GFF 通过注意力机制在样本级别自适应融合本地和全局特征:
第一级融合: $\(h_c^k = M(i_c^k + i_g^k) \otimes i_c^k + (1-M(i_c^k + i_g^k)) \otimes i_g^k\)$ 第二级融合(细化): $\(\widetilde{i}_c^k = M(h_c^k) \otimes i_c^k + (1-M(h_c^k)) \otimes i_g^k\)$
注意力权重 \(M(x) = \sigma(T_1(x) + T_2(x))\),其中 \(T_1, T_2\) 为并行非线性变换,捕获多尺度上下文信息。融合特征用于计算任务损失 \(\mathcal{L}_{task}\)。
- 相似度引导的集成蒸馏(SED):服务器端处理模型异构性。基于特征相似度动态分配聚合权重:
相似度分数: $\(s^{c,k} = \log \frac{\exp(sim(i_p^{c,k}, i_p^{g,k}))}{\sum_{j=1}^{|\mathcal{P}|}\exp(sim(i_p^{c,k}, i_p^{g,j}))}\)$
归一化聚合权重:\(w^{c,k} = \frac{\exp(s^{c,k})}{\sum_{c'\in\pi_{img}}\exp(s^{c',k})}\)
聚合教师表示:\(i_{agg}^k = \sum_{c\in\pi_{img}} w^{c,k} \cdot i_p^{c,k}\)
损失函数 / 训练策略¶
- 客户端损失:\(\mathcal{L}_{task} + \beta \cdot \mathcal{L}_{adv}\),\(\beta=0.5\)
- 服务器蒸馏损失:\(\mathcal{L}_{kd} = \frac{1}{|\mathcal{P}|}\sum_{k}(\|i_{agg}^k - i_p^{g,k}\|_2 + \|t_{agg}^k - t_p^{g,k}\|_2)\),\(\gamma=0.4\)
- 训练策略:40 轮通信,每轮 5 个本地 epoch,共 200 次本地更新
- 客户端判别器和编码器交替对抗训练
实验关键数据¶
主实验¶
设定:3 个图像客户端(CIFAR-100)、3 个文本客户端(AGNEWS)、4 个多模态客户端(Flickr30k),服务器任务 MS-COCO 检索。
| 方法 | CIFAR-100 acc@1 | AGNEWS acc@1 | Flickr30k i2t R@1 | MS-COCO rsum R@1 | 收敛轮数 |
|---|---|---|---|---|---|
| LOCAL | 28.07 | 48.35 | 22.33 | 57.54 | 29 |
| FedMD | 22.54 | 48.18 | 19.13 | 58.47 | 25 |
| FedGEMS | 22.84 | 48.30 | 18.93 | 58.62 | 27 |
| CreamFL | 22.14 | 42.16 | 18.38 | 59.61 | 21 |
| FedET | 31.86 | 49.38 | 22.63 | 58.92 | 27 |
| FedMKD | 24.99 | 47.99 | 22.33 | 59.18 | 21 |
| FedDFA | 23.09 | 43.79 | 19.68 | 59.10 | 26 |
| FedAFD | 33.18 | 51.98 | 32.48 | 60.16 | 20 |
Non-IID 设置。IID 设置下优势更大:CIFAR-100 上 FedAFD 61.04% vs FedET 46.44%,AGNEWS 89.34% vs 86.07%。FedAFD 在客户端和服务器端均显著优于所有基线,尤其 Flickr30k i2t 检索提升 +10 个点。注意许多 baseline 的 client 性能甚至低于 LOCAL,说明全局优化损害了个性化——FedAFD 是唯一能同时提升两端的方法。
消融实验¶
| 配置 | CIFAR-100 | AGNEWS | MS-COCO rsum | 说明 |
|---|---|---|---|---|
| FedAFD (Full) | 33.18 | 51.98 | 60.16 | 完整框架 |
| w/o BAA | 33.56 | 49.03 | 59.29 | 去掉对抗对齐,服务器性能下降 |
| w/o GFF | 24.94 | 44.46 | 59.72 | 去掉特征融合,客户端性能暴跌 |
| w/o SED | 32.21 | 50.20 | 59.56 | 去掉集成蒸馏,全局性能下降 |
关键发现¶
- GFF 对客户端性能至关重要:去掉 GFF 后 CIFAR-100 准确率从 33.18% 降到 24.94%(-8.24%)
- BAA 主要提升服务器性能:去掉后 rsum 从 60.16 降到 59.29,同时文本客户端也受影响
- 公共数据量影响:公共数据从 10k 增至 30k,服务器 rsum 从 60.16 提升到 78.09,但客户端性能略有下降
- 收敛效率:FedAFD 仅需 20 轮达到基线目标(57.50),其他方法需 21-29 轮
亮点与洞察¶
- 三阶段统一设计:首次在一个框架中同时解决跨模态/任务对齐、任务感知个性化和架构无关聚合
- 将MFL建模为域适应问题:通过对抗学习最小化客户端-服务器表示分布差异,理论基础清晰
- 双向优化:不同于仅关注全局或本地的方法,FedAFD 同时提升两端性能
- 表示级蒸馏:无需参数级一致性即可跨异构模型传递知识
局限性 / 可改进方向¶
- 公共数据依赖:框架依赖一个公共多模态数据集 \(\mathcal{P}\),在数据敏感场景中获取公共数据可能受限
- 判别器开销:每个客户端需额外维护两个判别器,增加了计算和通信负担
- 扩展性验证不足:实验仅包含 10 个客户端,大规模场景(100+ 客户端)下的表现未知
- 模态类型有限:仅验证了图像和文本两种模态,音频/视频等多模态场景待探索
相关工作与启发¶
- CreamFL:使用模态内/跨模态对比正则化,但忽视本地性能,FedAFD 的 GFF 模块解决了这一问题
- FedDFA:边界感知蒸馏权重,FedAFD 的 SED 进一步引入样本级动态权重
- 域适应理论:将联邦学习中的模态/任务差异建模为域适应问题,为 MFL 提供了新视角
评分¶
- 新颖性: ⭐⭐⭐⭐ 三模块协同设计系统性强,域适应视角新颖
- 实验充分度: ⭐⭐⭐⭐ 消融实验完整,IID/Non-IID双设置 + T-SNE可视化 + 公共数据量分析,附录含超参和通信开销分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导详实
- 价值: ⭐⭐⭐⭐ 是 MFL 领域较为完整的解决方案,对异构联邦学习有参考意义