跳转至

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

会议: CVPR 2026
arXiv: 2603.04887
代码: github.com/ccarliu/FedMEPD
领域: 医学图像分割 / 联邦学习 / 多模态融合
关键词: 联邦学习, 脑肿瘤分割, 模态异质性, 多模态融合解码器, 跨注意力

一句话总结

提出 FedMEPD 联邦学习框架,通过模态专属编码器、部分个性化融合解码器和多锚点交叉注意力校准,同时获得最优全模态全局模型和各客户端缺失模态个性化模型。

背景与动机

多参数 MRI 脑肿瘤分割需要 T1/T1c/T2/FLAIR 四种模态提供互补信息。在联邦学习场景中,不同医院可能只拥有部分模态(设备差异、协议不同等),既存在模态内的数据分布异质性,又存在模态间的缺失异质性。现有 FL 方法(FedAvg 及其变体)主要处理模态内异质性,将它们直接应用于多模态场景时,严重的模态间差异会导致参数聚合效果极差,甚至不如本地训练。

核心问题

如何在联邦学习中同时解决两个目标:(1) 利用所有客户端的异构模态数据训练一个最优的全模态全局模型;(2) 为每个拥有不同模态子集的客户端获得一个个性化的最优本地模型——且不共享隐私敏感的原始数据。

方法详解

整体框架

FedMEPD 采用后融合架构:服务器端有四个模态专属编码器 \(E_m\) 和一个多模态融合解码器 \(D_M\);每个客户端有对应模态的编码器和部分个性化解码器 \(D_m\)。额外引入 LACCA 模块用于客户端缺失模态的特征校准。

关键设计

  1. 联邦模态专属编码器:每种模态一个独立编码器,仅聚合同模态客户端的参数(\(W_m^s = \frac{1}{N_m}\sum_i W_m^i\)),避免不同模态间的参数干扰。服务器通过融合解码器反向传播桥接模态间分布差异。
  2. 部分个性化融合解码器:利用全局与本地参数更新方向的逐滤波器余弦相似度 \(\delta_j^{i,r}\) 判断哪些滤波器应联邦化、哪些应个性化。连续 \(P\) 轮更新方向与全局不一致的滤波器被标记为个性化,此后不再联邦化,保持稳定性。
  3. 多锚点多模态表示:对融合解码器的特征做逐类 masked average pooling 后 K-means 聚类得到 \(N_k=4\) 个锚点,通过 EMA 平滑更新。锚点是群体抽象信息而非个体特征,隐私安全。
  4. LACCA 局部自适应校准:客户端将局部缺失模态特征作为 query,全局多模态锚点作为 key/value,通过缩放点积交叉注意力(8 头)自适应地从全模态表示中捕获缺失信息:\(F_l^{cal} = \text{softmax}(F_l W_0 (A_l W_1)^T / \sqrt{C_l}) A_l W_2\)

损失函数 / 训练策略

采用 Dice loss + 交叉熵损失,Adam 优化器(lr=2e-4, weight decay=1e-5)。训练 1000 轮 FL,每轮服务器和客户端各训练 1 个 epoch。服务器端 EMA 聚合系数 \(\lambda\) 动态设定:完全个性化的滤波器取 1.0,否则取 0.3。输入裁剪 80×80×80 体素,batch size=1。

实验关键数据

方法 BraTS 2018 客户端平均 mDSC (%) 服务器 mDSC (%)
Local models 66.95 82.56
FedAvg 56.27 76.84
FedMSplit 71.23 81.46
FedMEPD (ours) 75.70 84.98

在 BraTS 2020 上趋势一致。FedMEPD 比第二好的 FedMSplit 客户端平均高约 4.5%,服务器端也超过本地模型 2.4%。额外在 HaN-Seg (CT+MRI 头颈器官分割) 数据集上验证了泛化性,CT 客户端 mDSC 领先第二名 2.14%。

消融实验要点

  • 模态专属编码器 vs FedAvg 编码器:客户端平均 mDSC 提升约 13%(行c vs 行a)
  • 完全联邦解码器 vs 部分个性化:部分个性化显著优于两个极端(行e vs 行c/d)
  • 单锚点 vs 多锚点 (\(N_k\)=4):多锚点在客户端和服务器端均最优
  • 服务器数据量降至 10% 时,客户端平均 mDSC (72.81%) 仍优于所有对比方法用全量数据的表现
  • 个性化 patience \(P\)=10 时最优;\(P\)=0(完全个性化)导致最差结果

亮点

  • 全模态锚点 + 交叉注意力校准以群体抽象特征代替原始数据传输,兼顾隐私和信息补全
  • 基于参数更新一致性的动态个性化策略自适应地为不同模态组合的客户端调整联邦/个性化比例(全模态客户端约 40% 联邦化,单模态客户端更少)
  • 实验设计严谨:跨数据集、跨任务、不同客户端数和模态数的全面验证

局限性

  • 假设服务器拥有全模态数据,在隐私最严格的场景中可能不成立
  • 实验规模受 BraTS 数据量限制(客户端仅 20-35 例),部分统计检验不显著
  • 仅验证了脑肿瘤和头颈器官分割两类任务

与相关工作的对比

  • FedMSplit:同样针对多模态 FL,但缺少个性化和模态缺失补偿机制,客户端平均低约 5%
  • CreamFL:通过跨模态对比学习在服务器和客户端间共享数据集,违反医学隐私限制
  • FedNorm:仅个性化 BN 参数,不足以应对严重的模态间异质性
  • GRACE:利用梯度一致性增强全局梯度,但不做客户端个性化

评分

  • 新颖性: ⭐⭐⭐⭐ (模态专属编码器+部分个性化解码器+多锚点校准的组合设计原创性强)
  • 实验充分度: ⭐⭐⭐⭐ (两个 BraTS + HaN-Seg + 多种客户端配置 + 详细消融)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,理论分析和可视化充分)
  • 价值: ⭐⭐⭐ (多模态联邦学习的实用框架,但应用场景相对窄)