Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation¶

会议: CVPR 2026 arXiv: 2603.04887 代码: 有领域: 医学图像 关键词: 联邦学习, 多模态脑肿瘤分割, 模态间异质性, 个性化联邦学习, 跨注意力校准

一句话总结¶

提出 FedMEPD 框架，通过模态专属编码器 + 部分个性化融合解码器 + 多锚点跨注意力校准，同时解决联邦学习中多模态 MRI 的模态间异质性和客户端个性化需求。

研究背景与动机¶

联邦学习在医学影像中的应用：FL 允许多个医疗机构在不共享隐私数据的前提下协同训练全局模型，适用于隐私敏感的医学图像分析场景。
多模态脑肿瘤分割的临床需求：脑肿瘤分割需要 T1、T1c、T2、FLAIR 四种 MRI 模态提供互补信息，分别突出肿瘤核心和瘤周水肿。
模态间异质性问题：现实中不同医疗机构可能仅拥有完整模态的子集（因采集协议、成本、禁忌症等原因），导致 FL 参与方之间存在严重的模态间异质性，而现有 FL 方法大多只考虑模态内异质性。
全局优化与个性化的双重需求：FL 需要同时训练一个面向全模态输入的最优全局模型，以及为每个客户端量身定制适配其本地数据特征的个性化模型。
现有方法的局限：FedAvg 及其衍生方法用相同网络结构处理不同模态组合，效果不佳；CreamFL 需要共享服务器数据违反隐私约束；完全个性化解码器则阻碍知识共享。
核心挑战：如何在保护隐私的前提下，既有效利用异质模态数据训练全局模型，又为缺失模态的客户端提供信息补偿和个性化适配。

方法详解¶

整体框架¶

FedMEPD 框架包含三个核心组件：

服务器端：拥有全模态数据，包含 4 个模态专属编码器（每种模态一个）和一个多模态融合解码器，融合特征经 K-means 聚类生成多锚点表示。
客户端：拥有部分模态数据，包含对应模态的全联邦编码器和部分联邦/部分个性化的融合解码器，以及 LACCA（局部自适应跨注意力校准）模块。
通信内容：除模型参数外，服务器还向客户端分发多锚点多模态表示用于缺失模态补偿。

基础网络采用 RFNet（Ding et al., 2021）架构，天然支持模态专属编码器 + 融合解码器的分离设计。

关键设计¶

1. 联邦模态专属编码器

为每种模态分配独立编码器 \(E_m\)，允许充分的参数特化。编码器在服务器与客户端之间完全联邦化：客户端接收全局参数训练后回传，服务器对同一模态的参数取平均 \(W_m^s = \frac{1}{N_m}\sum_i W_m^i\)。服务器端融合解码器可通过反向传播桥接不同模态分布，间接优化各模态编码器。

2. 部分个性化融合解码器

核心思想：基于全局与局部参数更新方向的一致性，动态决定解码器中哪些滤波器联邦化、哪些个性化。

计算服务器与客户端解码器的逐轮参数更新 \(\Delta W_d^{s,r}\) 和 \(\Delta W_d^{i,r}\)
对第 \(j\) 个滤波器计算余弦相似度 \(\delta_j^{i,r} = \cos(\Delta \mathbf{w}_j^{s,r}, \Delta \mathbf{w}_j^{i,r})\)
若连续 \(P\) 轮余弦相似度为负（更新方向持续矛盾），则该滤波器转为个性化，且不可逆
聚合规则：\(W_d^{i,agg} = (1 - B^{i,r-1})W_d^{i,r-1} + B^{i,r-1}W_d^{s,r-1}\)，其中 \(B\) 为二值掩码
服务器端用 EMA 策略平衡服务器与客户端贡献，\(\lambda\) 根据滤波器个性化状态动态调整

3. 多锚点多模态表示

从服务器融合解码器的特征图中，按类别用 ground truth 掩码提取特征
对每类特征做 K-means 聚类得到 \(N_k = 4\) 个锚点（而非单一原型），增强表示力
基于最抽象特征层级 \(l=4\)（瓶颈层）确定聚类成员
锚点通过 EMA（\(\omega = 0.999\)）平滑更新，避免训练崩溃
锚点是群体级抽象，不泄露个体隐私

4. LACCA 模块（局部自适应跨注意力校准）

客户端收到多模态锚点后，通过缩放点积跨注意力机制校准缺失模态表示：

\[F_l^{cal} = \text{softmax}\left[\frac{F_l W_0 (A_l W_1)^T}{\sqrt{C_l}}\right] A_l W_2\]

局部特征 \(F_l\) 作为 query，多模态锚点 \(A_l\) 同时作为 key 和 value
采用 8 头注意力机制，插入解码器全部 4 个特征尺度
客户端自适应地选择性强调最匹配自身数据模态和分布的锚点信息

损失函数与训练策略¶

损失函数：Dice Loss + Cross Entropy Loss（医学分割标准组合）
优化器：Adam，学习率 0.0002，权重衰减 \(10^{-5}\)
训练设置：1000 轮联邦通信，每轮服务器和客户端各训练 1 个 epoch
输入尺寸：\(80 \times 80 \times 80\) 体素，batch size = 1
正则化：编码器共享辅助分割解码器，强制学习相同判别特征
硬件：5 块 RTX 2080Ti（服务器 1 块，客户端均分 4 块）

实验关键数据¶

主实验¶

在 BraTS 2018 和 BraTS 2020 上与 10 种基线/SOTA 方法比较。

BraTS 2018 mDSC (%) 核心结果：

方法	客户端平均	服务器
Local models	66.95	82.56
FedAvg	59.04	80.10
FedMSplit (次优)	71.23	79.93
FedIoT	69.18	84.89
FedMEPD (Ours)	75.70	84.98

BraTS 2020 mDSC (%) 核心结果：

方法	客户端平均	服务器
Local models	71.38	88.07
FedAvg	61.91	87.61
FedMSplit (次优)	73.80	86.88
FedMEPD (Ours)	75.90	89.39

HD95 指标同样验证了方法优越性：BraTS 2018 上客户端平均 HD95 从 FedMSplit 的 18.01 降低至 12.98，服务器 HD95 从 12.40 降至 6.52。

消融实验¶

Table 6：组件逐步添加（BraTS 2018 验证集 mDSC %）：

配置	客户端平均	服务器
(a) FedAvg 联邦编码器	55.37	82.60
(c) 模态专属编码器	68.70	82.72
(d) + 完全联邦解码器	68.49	83.00
(e) + 部分个性化解码器	70.73	83.83
(f) + LACCA 单锚点	71.19	83.71
(h) + 多锚点 (完整模型)	72.84	83.83

个性化耐心 P 值敏感性：P=0（完全个性化）客户端平均 68.70%，P=10 最优 72.84%，P=6~14 区间性能稳定。

多锚点数量 \(N_k\)：\(N_k=4\) 最优（72.84%），\(N_k=1\) 降至 71.19%，验证多锚点优于单原型。

关键发现¶

模态专属编码器是最大贡献者：从 FedAvg 的 55.37% 提升到 68.70%（+13.33%），说明模态间异质性是核心瓶颈。
部分个性化优于完全个性化和完全联邦：完全个性化解码器（P=0）和完全联邦解码器都不如部分个性化策略，验证了在知识共享与个性化之间取得平衡的重要性。
对服务器数据量鲁棒：即使服务器数据减少到 10%，客户端平均 mDSC 仍达 72.81%，优于使用全量数据的所有对比方法。
对标注质量鲁棒：服务器标注随机膨胀/腐蚀 1 像素后，客户端平均 mDSC 仅从 75.70% 略降至 75.02%，无统计显著差异。
FedAvg 系列在多模态异质场景下甚至低于 Local 基线，说明简单联邦聚合在模态异质性下反而有害。

亮点与洞察¶

滤波器级动态个性化机制新颖——基于参数更新方向一致性的二值掩码，通信开销极低（每个滤波器仅 1 字节），且不可逆设计保证训练稳定。
多锚点表示相比单原型更能刻画 3D 医学图像中显著的个体间差异，且作为群体级抽象不泄露个体隐私。
LACCA 模块的自适应性：每个客户端通过注意力机制自动选择性地利用最匹配的全模态锚点，实现了"一个模块适配所有模态组合"。
实验设计全面：涵盖不同客户端数量（4/6）、不同模态组合度（1~4 模态）、不同服务器数据量/质量，充分验证框架鲁棒性。

局限性¶

假设服务器拥有全模态数据，这在现实中并非总能满足——虽然实验证明少量服务器数据即可，但完全无全模态数据的场景未覆盖。
个性化掩码一旦设定不可逆（滤波器转个性化后不再联邦），可能在极长训练中限制灵活性。
实验仅限脑肿瘤分割（BraTS 数据集），未验证在其他多模态医学任务（如心脏、腹部）的泛化性。
客户端最多 8 个，未验证更大规模联邦场景下的通信效率和收敛性。
未讨论差分隐私等正式隐私保证，多锚点表示的隐私风险需进一步分析。

评分¶

新颖性: ⭐⭐⭐⭐ — 滤波器级动态个性化和多锚点跨注意力校准设计新颖
实验充分度: ⭐⭐⭐⭐⭐ — 两个数据集、10+ 方法对比、全面消融、鲁棒性分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式推导严谨，图表丰富
价值: ⭐⭐⭐⭐ — 切实解决了多模态联邦医学影像中的关键问题