Federated Prompt-Tuning with Heterogeneous and Incomplete Multimodal Client Data¶
会议: ICCV 2025
arXiv: 2602.07081
代码: github.com/hangpt01/FedPrime
领域: 联邦学习 / 多模态优化
关键词: 联邦学习, Prompt-Tuning, 多模态, 缺失模态, 异构数据
一句话总结¶
提出 FED-PRIME,一个面向多模态数据模态缺失场景的联邦 Prompt-Tuning 框架,通过 inter-client 和 intra-client 两组 prompt 分别捕获跨客户端可对齐的缺失模式和客户端内特有的缺失模式,并通过聚类-对齐机制进行服务端聚合,在多种缺失数据设置下大幅超越现有基线。
研究背景与动机¶
领域现状¶
大型预训练模型的微调(Fine-tuning)已成为主流范式。Prompt-Tuning 作为参数高效的微调方法,通过在输入前添加可学习的 prompt token 来适配下游任务。联邦学习(FL)允许多设备在不共享数据的情况下协同训练模型。
现有痛点¶
联邦 Prompt-Tuning 仅支持单模态:现有方法假设所有客户端的数据模态相同,无法处理多模态场景
多模态联邦学习不利用预训练模型:现有多模态 FL 方法(FedMSplit、FedMAC 等)使用定制架构,不能通过微调预训练的多模态基础模型(如 CLIP、ViLT)来获益
模态缺失的双重异构性: - Intra-heterogeneity(客户端内异构):单个数据集内不同样本有不同的缺失模态 - Inter-heterogeneity(客户端间异构):不同客户端有不同的模态缺失分布模式
朴素聚合失效:不同客户端的 prompt 可能因偏向不同的缺失模式而无法直接平均,简单 FedAvg 会将 prompt 坍缩为低信息量的表示
核心矛盾¶
多模态联邦学习中,各客户端的模态缺失模式不同,导致学到的 prompt 编码了不同的信息模式。直接聚合这些异构的 prompt 会导致信息冲突和性能退化。需要一种能识别、对齐、聚合编码了相似缺失模式的 prompt 的机制。
方法详解¶
整体框架¶
FED-PRIME 基于预训练的 ViLT 模型,每个客户端维护两组可学习的 prompt 集合(inter-client 和 intra-client),通过输入自适应机制选择最相关的 prompt 子集。服务端对 intra-client prompt 使用标准 FedAvg 聚合,对 inter-client prompt 使用基于聚类的对齐-聚合机制。
关键设计¶
1. 双 Prompt 集合设计¶
- 功能:将微调知识分解为两组 prompt,分别编码不同类型的缺失模式信息
- 核心思路:
Inter-client prompts \(\mathbf{w}_p^{inter} = \{\mathbf{p}_1^{inter}, \ldots, \mathbf{p}_\tau^{inter}\}\):编码输入级别的缺失数据分布模式,可跨客户端对齐和聚合
Intra-client prompts \(\mathbf{w}_p^{intra} = \{\mathbf{p}_1^{intra}, \ldots, \mathbf{p}_\tau^{intra}\}\):编码与输入无关的缺失模态模式(如仅缺图像 vs 仅缺文本),可直接 FedAvg 聚合
- 设计动机:聚合机制反向约束了知识编码方式。如果与输入级别模式相关的知识错误地编入 intra-prompt,会被 FedAvg 平均掉;如果通用知识错误地编入 inter-prompt,会浪费其表达带宽。这种分离设计通过隐式的梯度信号自动实现知识的正确分配
2. 输入自适应 Prompt 检索¶
- 功能:为每个输入样本从两组 prompt 中分别选择最相关的 \(\kappa\) 个 prompt 作为微调指令
- 核心思路:学习 key 函数 \(k(\mathbf{p})\) 和 query 函数 \(q(\mathbf{x}(M))\),通过余弦距离 \(d(\mathbf{x}(M), \mathbf{p}) = \cos(q(\mathbf{x}(M)), k(\mathbf{p}))\) 衡量相关性。局部损失函数加入正则项:
其中 \(r(\mathbf{x}(M), \mathbf{w}'_p) = \sum_{\mathbf{p} \in \mathbf{w}'_p} d(\mathbf{x}(M), \mathbf{p})\) 惩罚选中的 prompt 与输入的距离
- 设计动机:不同样本有不同的缺失模式,需要不同的 prompt 指令。正则项确保 prompt 不会被过载——每个 prompt 只负责与其"邻近"的样本模式,从而实现知识的蒸馏和分离
3. 服务端聚类-对齐聚合¶
- 功能:识别跨客户端中编码了相似缺失模式的 inter-client prompt,将它们聚类并合并为更综合的 prompt
- 核心思路:将对齐问题形式化为带约束的聚类优化任务:
其中 \(\alpha_t^{p,q} \in \{0,1\}\) 表示客户端 \(t\) 的第 \(p\) 个 prompt 是否匹配到第 \(q\) 个聚类,\(\boldsymbol{\theta}_q\) 为聚类中心(即聚合后的 prompt)。约束确保同一客户端的 prompt 不被分到同一聚类。\(R(\boldsymbol{\alpha}, \zeta)\) 通过可学习的流行度函数 \(U(\boldsymbol{\theta}_q; \zeta)\) 优先更新更通用的 prompt。使用 Hungarian 算法求解离散优化子问题。
- 设计动机:同一位置的 inter-client prompt 在不同客户端可能编码了完全不同的缺失模式(因为某些模式在某些客户端不存在),朴素的位置对齐会导致不兼容 prompt 的混合。聚类机制按语义相似性对齐而非按位置对齐
损失函数 / 训练策略¶
- 主模型:冻结的 ViLT + 可学习的 prompt 集合 + 分类头
- 客户端更新:最小化 \(L'_t(\mathbf{w})\)(含正则项的局部损失)
- 服务端聚合:inter-prompt 通过聚类-对齐算法聚合,intra-prompt 通过 FedAvg 聚合
- 交替优化:(1) 固定 \(\boldsymbol{\alpha}\) 优化 \((\boldsymbol{\theta}, \zeta, \gamma)\);(2) 固定 \((\boldsymbol{\theta}, \zeta, \gamma)\) 通过 Hungarian 算法求解 \(\boldsymbol{\alpha}\)
实验关键数据¶
主实验¶
UPMC Food-101 数据集(分类准确率 %):
| 训练场景 | 方法 | Test(~Train) | Test(Miss Both) | Test(Full Modal) | Test(Text only) | Test(Image only) |
|---|---|---|---|---|---|---|
| Miss Text | FEDAVG-P | 15.71 | 14.90 | 21.56 | 16.91 | 15.36 |
| Miss Text | FED-INTER | 54.82 | 48.87 | 59.17 | 35.13 | 56.59 |
| Miss Text | FED-PRIME | 78.88 | 80.38 | 92.12 | 73.01 | 76.83 |
| Miss Image | FEDAVG-P | 17.35 | 15.12 | 16.84 | 18.12 | 14.81 |
| Miss Image | FED-INTER | 77.96 | 64.62 | 82.08 | 77.69 | 37.56 |
| Miss Image | FED-PRIME | 90.55 | 79.12 | 92.89 | 90.18 | 54.14 |
| Miss Both | FEDAVG-P | 14.57 | - | 17.17 | 16.40 | 13.24 |
| Miss Both | FED-INTER | 56.32 | - | 69.57 | 45.15 | 59.30 |
| Miss Both | FED-PRIME | 84.44 | - | 93.64 | 87.95 | 72.41 |
FED-PRIME 相对第二名的提升幅度在 Food-101 上为 1.73%~107.83%,在 MM-IMDB 上为 4.41%~69.65%。
消融实验¶
| 方法 | 组成 | Food-101 Miss Text (Full Modal) | MM-IMDB Miss Text (Full Modal) |
|---|---|---|---|
| FEDAVG-P | 无 prompt 分离 | 21.56 | 30.78 |
| FED-INTRA | 仅 intra-prompt | 62.06 | 12.55 |
| FED-INTER | 仅 inter-prompt | 59.17 | 18.67 |
| FED-PRIME | 两者结合 | 92.12 | 37.67 |
鲁棒性(Miss Both, Food-101, 不同缺失率 η):
| 缺失率 η | FED-PRIME | FEDAVG-P | Centralized-P |
|---|---|---|---|
| 0.00 | ~93% | ~90% | ~93% |
| 0.25 | ~88% | ~60% | ~85% |
| 0.50 | ~85% | ~45% | ~80% |
| 0.75 | ~82% | ~30% | ~75% |
| 1.00 | ~80% | ~15% | ~70% |
关键发现¶
- 双 prompt 设计缺一不可:仅用 FED-INTER 或 FED-INTRA 都远不如完整的 FED-PRIME,验证了 inter/intra 异构性需要分别处理
- 对齐机制至关重要:无对齐的 FedAvg prompt-tuning 在高缺失率下性能急剧退化(从 ~90% 降至 ~15%),而 FED-PRIME 保持在 80% 以上
- FED-PRIME 接近集中式上界:在高缺失率下,FED-PRIME 甚至超过了集中式 Centralized-P(两者都使用 prompt-tuning)
- 收敛更快更稳定:FED-PRIME 的训练/测试 loss 收敛速度显著快于 FED-INTER 和 FED-INTRA
- 有趣的 Miss Text 实验:70% 文本缺失训练后,在 Text Only 测试上仍表现良好,说明 prompt 对齐能有效恢复缺失模态的信息
亮点与洞察¶
- 问题定义的系统性:清晰区分了 intra-heterogeneity 和 inter-heterogeneity,并为每种设计了对应的 prompt 集合和聚合策略
- 隐式知识分离机制:聚合机制反向约束编码方式——这是一个优雅的设计哲学,让模型自动学习如何将不同类型的知识分配到不同的 prompt
- 聚类-对齐的形式化:将 prompt 对齐问题转化为带约束的聚类优化,流行度函数 \(U(\boldsymbol{\theta}_q; \zeta)\) 进一步区分通用和专用 prompt
- 全面的实验设置:3种训练缺失场景 × 5种测试场景 = 15组实验,覆盖面广
局限与展望¶
- 仅在双模态(图像+文本)上验证:三模态及以上场景的可扩展性未知
- ViLT 模型固有的文本偏向:实验发现 Image Only 测试性能总是较差,可能源于 ViLT 预训练的文本中心性
- 仅选择 8 类样本:从原始数据集中筛选频次最高的 8 类,可能低估了大规模类别下的挑战
- Hungarian 算法的扩展性:聚类数为 \(n \times \tau\) 时,\(O(n^3\tau^3)\) 复杂度可能限制大规模部署
- 缺失模式为随机模拟:真实世界中的模态缺失可能有更复杂的结构(如与地理位置相关)
- 未与 CLIP 等更强基础模型结合:ViLT 已不是最先进的多模态模型
相关工作与启发¶
- Missing Prompt-Tuning(Lee et al.)是集中式场景下为每种缺失模态子集学习专用 prompt 的方法,FED-PRIME 将其扩展到联邦场景
- FedMSplit 和 FedMAC 处理多模态联邦学习,但不利用预训练基础模型
- 聚类-对齐思想可以推广到其他联邦学习中的异构性对齐问题
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次连接联邦学习和多模态 Prompt-Tuning,双 prompt + 聚类对齐设计有创新
- 实验充分度: ⭐⭐⭐⭐ — 15 组训练-测试场景组合全面,但仅 2 个数据集稍显不足
- 写作质量: ⭐⭐⭐⭐ — 问题形式化清晰,但符号和公式较多,可读性有提升空间
- 价值: ⭐⭐⭐⭐ — 填补了多模态缺失数据的联邦 Prompt-Tuning 空白,实际应用场景广泛
相关论文¶
- [NeurIPS 2025] Learning Reconfigurable Representations for Multimodal Federated Learning with Missing Data
- [ICCV 2025] Federated Continual Instruction Tuning
- [ICML 2025] FedSWA: Improving Generalization in Federated Learning with Highly Heterogeneous Data via Momentum-Based Stochastic Controlled Weight Averaging
- [AAAI 2026] SMoFi: Step-wise Momentum Fusion for Split Federated Learning on Heterogeneous Data
- [NeurIPS 2025] Exact and Linear Convergence for Federated Learning under Arbitrary Client Participation is Attainable