Federated CLIP for Resource-Efficient Heterogeneous Medical Image Classification¶

会议: AAAI 2026
arXiv: 2511.07929
代码: github
领域: 医学图像
关键词: 联邦学习, CLIP, 医学图像分类, 数据异构, 参数高效

一句话总结¶

提出 FedMedCLIP，一种面向医学图像分类的联邦 CLIP 框架，通过冻结 CLIP 编码器 + 掩码特征适配模块（FAM）+ 本地掩码 MLP + 类别级 KL 蒸馏正则化，在保持极低通信/计算开销的同时实现对数据异构场景的鲁棒分类（ISIC2019 上超第二名 8%，比 FedAVG 快 120 倍）。

研究背景与动机¶

联邦学习在医学图像中的困境¶

深度学习在医学影像中表现出色，但数据隐私限制了跨机构协作。联邦学习（FL）提供了一种分布式训练框架，但面临两大挑战：

数据异构性：不同医院的设备、模态、病种分布差异巨大（feature shift），导致全局模型在本地端性能退化

资源开销：VLM 类模型（如 CLIP 有 ~10⁸ 参数）的通信和计算开销巨大，低资源设备难以部署

CLIP 在医学领域的适配困难¶

原始 CLIP 在医学数据上表现极差（如 ISIC2019 上仅 24.1% 准确率），因为预训练数据与医学领域存在巨大领域差距
直接使用 CLIP 判断皮肤癌的召回率仅约 50%
现有 PEFT 方法（如 FedCLIP、PromptFL）：(a) 未在医学数据上验证，(b) 未处理模态级异构，(c) 全局聚合可能丢失客户端特有特征

核心问题¶

如何高效地将 CLIP 适配到联邦医学场景中，在异构数据下以合理开销取得可靠性能？

方法详解¶

整体框架¶

框架分三部分循环运行：

本地训练与推理：冻结 CLIP 编码器提取特征 → FAM 生成掩码特征 → 对比损失训练 FAM + CE 损失训练本地 MLP + KL 正则化对齐两者
模型压缩与传输：FAM 参数转 float16 + zlib 压缩后上传服务器
全局聚合：简单平均聚合 FAM 参数，MLP 参数保持本地私有

关键设计¶

1. 掩码特征适配模块（Masked FAM）¶

FAM 对 CLIP 图像特征施加注意力掩码，核心思路是学习稀疏但主导性的特征表示：

输入图像特征 \(\mathbf{I} = e_I(\mathbf{x}) \in \mathbb{R}^D\)
FAM 生成掩码 \(att_i(\mathbf{I}) \in [0,1]^D\)，掩码后特征 \(\tilde{\mathbf{I}} = att_i(\mathbf{I}) \otimes \mathbf{I}\)
掩码生成过程：计算每层权重的平均幅值 \(u_i\)，与可学习阈值 \(\kappa_i\) 比较生成二值掩码

\[m_i = \mathcal{S}(u_i - \kappa_i) = \begin{cases} 1 & \text{if } u_i \geq \kappa_i \\ 0 & \text{if } u_i < \kappa_i \end{cases}\]

掩码后的线性层：\(\hat{W} = W \odot (\mathcal{M} \cdot \mathbf{1}^T), \; y = \hat{W}x + (b \odot \mathcal{M})\)

设计动机：掩码机制使 FAM 专注于跨客户端共享的主导特征维度，减少噪声传播，同时 FAM 仅约 \(5 \times 10^5\) 参数（远小于 CLIP 的 \(10^8\)），大幅降低通信开销。

2. 掩码本地 MLP 分类器¶

每个客户端有一个私有的掩码 MLP，使用相同的掩码线性层结构
MLP 不上传聚合，因此保留客户端特有的模式和类别分布信息
使用标准交叉熵损失训练：\(\mathcal{L}_{MLP} = -\frac{1}{B}\sum_{j=1}^{B}\mathcal{L}_{CE}(p_j, y)\)

设计动机：全局聚合会削弱 FAM 学到的客户端特有特征，因此引入私有 MLP 来捕获本地任务特性。两者互补：FAM 学全局共享特征，MLP 学本地特有特征。

3. 类别级 KL 蒸馏正则化¶

让 FAM 和 MLP 相互学习，但需要考虑类别信息以避免异构数据下的误适配：

\[\mathcal{L}_{sim} = \frac{1}{C}\sum_{c=1}^{C}\sum_{i=1}^{B}\left(\varpi \hat{q}_i^{(c)}\log\frac{\hat{q}_i^{(c)}}{\hat{p}_i^{(c)}} + (1-\varpi)\hat{p}_i^{(c)}\log\frac{\hat{p}_i^{(c)}}{\hat{q}_i^{(c)}}\right)\]

其中动态权重 \(\varpi = \frac{\mathcal{H}(p^v)}{\mathcal{H}(p^m) + \mathcal{H}(p^v)}\) 基于预测熵自适应平衡 FAM→MLP 和 MLP→FAM 的知识传递方向。

设计动机：当 FAM 不确定时（高熵），让 MLP 多引导 FAM；反之亦然。

4. 集成预测与模型压缩¶

推理时：\(p^{ens} = \varpi \cdot p^{MLP} + (1-\varpi) \cdot p^{FAM}\)
压缩：float32→float16 + zlib，模型大小从 2.01MB 降至 1.36MB，性能损失可忽略（80.48% → 80.4%）

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \mathcal{L}_{contr} + \mathcal{L}_{MLP} + \lambda \cdot \mathcal{L}_{sim}\)

\(\mathcal{L}_{contr}\)：图文对比损失训练 FAM
\(\mathcal{L}_{MLP}\)：交叉熵损失训练本地 MLP
\(\lambda = 0.04\)，温度 \(T=2\)
AdamW 优化器，指数学习率调度（gamma=0.97）
通信轮次：ISIC2019 100 轮，其余 50 轮，本地训练 1 epoch/轮

实验关键数据¶

主实验¶

ISIC2019 皮肤癌分类（7 个客户端按解剖部位划分，特征异构）：

方法	C₁	C₂	C₃	C₄	C₅	C₆	Global	AVG
CLIP zero-shot	31.95	23.98	24.31	17.71	20.12	33.47	17.17	24.1
FedAVG	78.35	60.47	76.39	58.33	75.00	71.77	84.54	72.12
FedAPT	77.15	51.09	73.80	67.65	81.70	68.60	85.43	72.21
Ours	84.45	71.92	82.69	84.31	79.00	79.40	81.01	80.4

资源效率对比：

方法	ISIC2019 计算(min)	ISIC2019 通信(GB)	BraTS 计算(min)	BraTS 通信(GB)
FedAVG	95.58	7.569	28.19	3.03
FedAPT	72.50	0.037	4.23	0.003
Ours	68.56	0.063	2.85	0.012

消融实验¶

\(\mathcal{L}_{contr}\)	\(\mathcal{L}_{MLP}\)	\(\mathcal{L}_{sim}\)	聚合	AVG
✓	✗	✗	✓	71.94
✓	✓	✗	✓	78.44
✗	✓	✗	✗	67.77
✓	✓	✓	✗	70.41
✓	✓	✓	✓	80.4

关键发现¶

原始 CLIP 在医学数据上极差：零样本仅 24.1%，证实大域间差距
MLP 贡献最大：引入 \(\mathcal{L}_{MLP}\) 后 AVG 从 71.94% → 78.44%（+6.5%）
KL 正则化进一步提升：+1.96% AVG，但对个别类别不平衡客户端可能微降
资源效率显著：比 FedAVG 快 120 倍、通信量降 120 倍，与 FedAPT 计算时间相当
大规模客户端稳定：ICH 数据集从 5→10→15 客户端，本方法 AVG 始终 >66%，而 FACMIC 下降约 5%
对抗鲁棒性较强：FGSM 攻击下 AVG 33.85%，优于 FedCLIP (24%) 和 LoRA (23%)

亮点与洞察¶

全局+本地双路设计：FAM 聚合全局知识、MLP 保留本地特性，两者通过 KL 蒸馏互学习，形成了优雅的互补结构
掩码机制的双重作用：既实现了参数稀疏化（降低通信/计算成本），又促进了模型关注主导特征（提升泛化）
entropy-based 动态权重：\(\varpi\) 的设计简洁有效，自适应平衡两个模型的知识流向
模型压缩零性能损失：float16+zlib 压缩将 2.01MB 减至 1.36MB，AVG 仅降 0.08%
真正的医学领域验证：不同于大多数 FL+CLIP 工作只在 OfficeHome 等自然图像上验证

局限与展望¶

全局泛化能力有限：在模态级异构（如 BraTS 不同 MRI 模态）时全局 ACC 低于 FedAPT，CLIP 编码器的先验知识对医学模态差异应对不足
仍依赖标准 prompt 模板：使用 "a picture of a {class}" 这种通用 prompt，未利用医学领域 prompt 知识
掩码阈值 \(\kappa\) 的初始化和训练：文中未深入讨论 sign 函数在反向传播中的梯度处理（可能用 STE）
仅验证分类任务：未扩展到分割、检测等更复杂的医学任务
隐私保证未形式化：虽然 FAM 参数较小，但未分析其是否可能泄露部分特征信息

评分¶

新颖性: ⭐⭐⭐⭐ — FAM+MLP 双路+KL 互蒸馏设计新颖且合理
实验充分度: ⭐⭐⭐⭐⭐ — 4 个医学数据集、8 个基线、多角度分析（鲁棒性、可扩展性、统计显著性）
写作质量: ⭐⭐⭐⭐ — 条理清晰，公式推导完整
价值: ⭐⭐⭐⭐ — 为联邦 CLIP 在医学领域的落地提供了实用方案