Federated Prompt-Tuning with Heterogeneous and Incomplete Multimodal Client Data¶

会议: ICCV 2025
arXiv: 2602.07081
代码: github.com/hangpt01/FedPrime
领域: 联邦学习 / 多模态优化
关键词: 联邦学习, Prompt-Tuning, 多模态, 缺失模态, 异构数据

一句话总结¶

提出 FED-PRIME，一个面向多模态数据模态缺失场景的联邦 Prompt-Tuning 框架，通过 inter-client 和 intra-client 两组 prompt 分别捕获跨客户端可对齐的缺失模式和客户端内特有的缺失模式，并通过聚类-对齐机制进行服务端聚合，在多种缺失数据设置下大幅超越现有基线。

研究背景与动机¶

领域现状¶

大型预训练模型的微调（Fine-tuning）已成为主流范式。Prompt-Tuning 作为参数高效的微调方法，通过在输入前添加可学习的 prompt token 来适配下游任务。联邦学习（FL）允许多设备在不共享数据的情况下协同训练模型。

现有痛点¶

联邦 Prompt-Tuning 仅支持单模态：现有方法假设所有客户端的数据模态相同，无法处理多模态场景

多模态联邦学习不利用预训练模型：现有多模态 FL 方法（FedMSplit、FedMAC 等）使用定制架构，不能通过微调预训练的多模态基础模型（如 CLIP、ViLT）来获益

模态缺失的双重异构性： - Intra-heterogeneity（客户端内异构）：单个数据集内不同样本有不同的缺失模态 - Inter-heterogeneity（客户端间异构）：不同客户端有不同的模态缺失分布模式

朴素聚合失效：不同客户端的 prompt 可能因偏向不同的缺失模式而无法直接平均，简单 FedAvg 会将 prompt 坍缩为低信息量的表示

核心矛盾¶

多模态联邦学习中，各客户端的模态缺失模式不同，导致学到的 prompt 编码了不同的信息模式。直接聚合这些异构的 prompt 会导致信息冲突和性能退化。需要一种能识别、对齐、聚合编码了相似缺失模式的 prompt 的机制。

方法详解¶

整体框架¶

FED-PRIME 基于预训练的 ViLT 模型，每个客户端维护两组可学习的 prompt 集合（inter-client 和 intra-client），通过输入自适应机制选择最相关的 prompt 子集。服务端对 intra-client prompt 使用标准 FedAvg 聚合，对 inter-client prompt 使用基于聚类的对齐-聚合机制。

关键设计¶

1. 双 Prompt 集合设计¶

功能：将微调知识分解为两组 prompt，分别编码不同类型的缺失模式信息
核心思路：

Inter-client prompts \(\mathbf{w}_p^{inter} = \{\mathbf{p}_1^{inter}, \ldots, \mathbf{p}_\tau^{inter}\}\)：编码输入级别的缺失数据分布模式，可跨客户端对齐和聚合

Intra-client prompts \(\mathbf{w}_p^{intra} = \{\mathbf{p}_1^{intra}, \ldots, \mathbf{p}_\tau^{intra}\}\)：编码与输入无关的缺失模态模式（如仅缺图像 vs 仅缺文本），可直接 FedAvg 聚合

设计动机：聚合机制反向约束了知识编码方式。如果与输入级别模式相关的知识错误地编入 intra-prompt，会被 FedAvg 平均掉；如果通用知识错误地编入 inter-prompt，会浪费其表达带宽。这种分离设计通过隐式的梯度信号自动实现知识的正确分配

2. 输入自适应 Prompt 检索¶

功能：为每个输入样本从两组 prompt 中分别选择最相关的 \(\kappa\) 个 prompt 作为微调指令
核心思路：学习 key 函数 \(k(\mathbf{p})\) 和 query 函数 \(q(\mathbf{x}(M))\)，通过余弦距离 \(d(\mathbf{x}(M), \mathbf{p}) = \cos(q(\mathbf{x}(M)), k(\mathbf{p}))\) 衡量相关性。局部损失函数加入正则项：

\[L'_t(\mathbf{w}) = \sum_{s=1}^m \ell(F(\mathbf{x}(M_{t,s}); \mathbf{w}'), z_{t,s}) + \sum_{s=1}^m r(\mathbf{x}(M_{t,s}), \mathbf{w}'_p)\]

其中 \(r(\mathbf{x}(M), \mathbf{w}'_p) = \sum_{\mathbf{p} \in \mathbf{w}'_p} d(\mathbf{x}(M), \mathbf{p})\) 惩罚选中的 prompt 与输入的距离

设计动机：不同样本有不同的缺失模式，需要不同的 prompt 指令。正则项确保 prompt 不会被过载——每个 prompt 只负责与其"邻近"的样本模式，从而实现知识的蒸馏和分离

3. 服务端聚类-对齐聚合¶

功能：识别跨客户端中编码了相似缺失模式的 inter-client prompt，将它们聚类并合并为更综合的 prompt
核心思路：将对齐问题形式化为带约束的聚类优化任务：

\[\min_{\boldsymbol{\alpha}, \boldsymbol{\theta}, \gamma} G(\boldsymbol{\alpha}, \boldsymbol{\theta}, \gamma) + R(\boldsymbol{\alpha}, \zeta)\]

其中 \(\alpha_t^{p,q} \in \{0,1\}\) 表示客户端 \(t\) 的第 \(p\) 个 prompt 是否匹配到第 \(q\) 个聚类，\(\boldsymbol{\theta}_q\) 为聚类中心（即聚合后的 prompt）。约束确保同一客户端的 prompt 不被分到同一聚类。\(R(\boldsymbol{\alpha}, \zeta)\) 通过可学习的流行度函数 \(U(\boldsymbol{\theta}_q; \zeta)\) 优先更新更通用的 prompt。使用 Hungarian 算法求解离散优化子问题。

设计动机：同一位置的 inter-client prompt 在不同客户端可能编码了完全不同的缺失模式（因为某些模式在某些客户端不存在），朴素的位置对齐会导致不兼容 prompt 的混合。聚类机制按语义相似性对齐而非按位置对齐

损失函数 / 训练策略¶

主模型：冻结的 ViLT + 可学习的 prompt 集合 + 分类头
客户端更新：最小化 \(L'_t(\mathbf{w})\)（含正则项的局部损失）
服务端聚合：inter-prompt 通过聚类-对齐算法聚合，intra-prompt 通过 FedAvg 聚合
交替优化：(1) 固定 \(\boldsymbol{\alpha}\) 优化 \((\boldsymbol{\theta}, \zeta, \gamma)\)；(2) 固定 \((\boldsymbol{\theta}, \zeta, \gamma)\) 通过 Hungarian 算法求解 \(\boldsymbol{\alpha}\)

实验关键数据¶

主实验¶

UPMC Food-101 数据集（分类准确率 %）：

训练场景	方法	Test(~Train)	Test(Miss Both)	Test(Full Modal)	Test(Text only)	Test(Image only)
Miss Text	FEDAVG-P	15.71	14.90	21.56	16.91	15.36
Miss Text	FED-INTER	54.82	48.87	59.17	35.13	56.59
Miss Text	FED-PRIME	78.88	80.38	92.12	73.01	76.83
Miss Image	FEDAVG-P	17.35	15.12	16.84	18.12	14.81
Miss Image	FED-INTER	77.96	64.62	82.08	77.69	37.56
Miss Image	FED-PRIME	90.55	79.12	92.89	90.18	54.14
Miss Both	FEDAVG-P	14.57	-	17.17	16.40	13.24
Miss Both	FED-INTER	56.32	-	69.57	45.15	59.30
Miss Both	FED-PRIME	84.44	-	93.64	87.95	72.41

FED-PRIME 相对第二名的提升幅度在 Food-101 上为 1.73%~107.83%，在 MM-IMDB 上为 4.41%~69.65%。

消融实验¶

方法	组成	Food-101 Miss Text (Full Modal)	MM-IMDB Miss Text (Full Modal)
FEDAVG-P	无 prompt 分离	21.56	30.78
FED-INTRA	仅 intra-prompt	62.06	12.55
FED-INTER	仅 inter-prompt	59.17	18.67
FED-PRIME	两者结合	92.12	37.67

鲁棒性（Miss Both, Food-101, 不同缺失率 η）：

缺失率 η	FED-PRIME	FEDAVG-P	Centralized-P
0.00	~93%	~90%	~93%
0.25	~88%	~60%	~85%
0.50	~85%	~45%	~80%
0.75	~82%	~30%	~75%
1.00	~80%	~15%	~70%

关键发现¶

双 prompt 设计缺一不可：仅用 FED-INTER 或 FED-INTRA 都远不如完整的 FED-PRIME，验证了 inter/intra 异构性需要分别处理
对齐机制至关重要：无对齐的 FedAvg prompt-tuning 在高缺失率下性能急剧退化（从 ~90% 降至 ~15%），而 FED-PRIME 保持在 80% 以上
FED-PRIME 接近集中式上界：在高缺失率下，FED-PRIME 甚至超过了集中式 Centralized-P（两者都使用 prompt-tuning）
收敛更快更稳定：FED-PRIME 的训练/测试 loss 收敛速度显著快于 FED-INTER 和 FED-INTRA
有趣的 Miss Text 实验：70% 文本缺失训练后，在 Text Only 测试上仍表现良好，说明 prompt 对齐能有效恢复缺失模态的信息

亮点与洞察¶

问题定义的系统性：清晰区分了 intra-heterogeneity 和 inter-heterogeneity，并为每种设计了对应的 prompt 集合和聚合策略
隐式知识分离机制：聚合机制反向约束编码方式——这是一个优雅的设计哲学，让模型自动学习如何将不同类型的知识分配到不同的 prompt
聚类-对齐的形式化：将 prompt 对齐问题转化为带约束的聚类优化，流行度函数 \(U(\boldsymbol{\theta}_q; \zeta)\) 进一步区分通用和专用 prompt
全面的实验设置：3种训练缺失场景 × 5种测试场景 = 15组实验，覆盖面广

局限与展望¶

仅在双模态（图像+文本）上验证：三模态及以上场景的可扩展性未知
ViLT 模型固有的文本偏向：实验发现 Image Only 测试性能总是较差，可能源于 ViLT 预训练的文本中心性
仅选择 8 类样本：从原始数据集中筛选频次最高的 8 类，可能低估了大规模类别下的挑战
Hungarian 算法的扩展性：聚类数为 \(n \times \tau\) 时，\(O(n^3\tau^3)\) 复杂度可能限制大规模部署
缺失模式为随机模拟：真实世界中的模态缺失可能有更复杂的结构（如与地理位置相关）
未与 CLIP 等更强基础模型结合：ViLT 已不是最先进的多模态模型

评分¶

新颖性: ⭐⭐⭐⭐ — 首次连接联邦学习和多模态 Prompt-Tuning，双 prompt + 聚类对齐设计有创新
实验充分度: ⭐⭐⭐⭐ — 15 组训练-测试场景组合全面，但仅 2 个数据集稍显不足
写作质量: ⭐⭐⭐⭐ — 问题形式化清晰，但符号和公式较多，可读性有提升空间
价值: ⭐⭐⭐⭐ — 填补了多模态缺失数据的联邦 Prompt-Tuning 空白，实际应用场景广泛