FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models¶

会议: ICCV 2025
arXiv: 2504.20860
代码: https://github.com/mainaksingha01/FedMVP
领域: 多模态VLM
关键词: 联邦学习, CLIP提示学习, 多模态提示, 视觉提示调优, 跨域泛化

一句话总结¶

提出FedMVP，在联邦学习场景下通过PromptFormer网络融合图像视觉特征和LLM生成的类别属性文本特征，生成动态多模态视觉提示注入CLIP的视觉编码器，在20个数据集、三种泛化设置下显著超越现有联邦提示学习方法1.57%-2.26%。

研究背景与动机¶

联邦学习（FL）允许多个客户端协作训练全局模型而不共享数据。CLIP等VLM因其强泛化能力成为FL的理想选择，但其参数量巨大导致通信开销过高。提示学习（prompt tuning）通过仅学习轻量级提示token来适配CLIP，仅需通信 ~0.37% 的参数，天然适合FL场景。

然而，现有FL提示学习方法面临严重的泛化性退化问题：

文本提示学习（TPT，如PromptFL）：学到的是静态上下文，固定后无法泛化到未见类别

视觉提示学习（VPT，如FedVPT）：同样因静态上下文导致泛化受限

条件化提示方法：FedTPG仅利用类名文本信息，FedCoCoOp仅利用图像视觉信息——在FL的高异质性场景下，单一模态的上下文信息不足

核心矛盾：FL场景的数据异质性极高（各客户端数据来自不相交的类别和领域），需要提示具备跨类别和跨域的泛化能力，但现有方法的条件化信息来源过于单一。

核心idea：双模态条件化——同时利用(1)输入图像的视觉特征和(2)类别的LLM文本属性描述来生成提示，通过交叉注意力融合两种模态信息。属性促进未见类别的泛化（未见类共享已见类的某些属性），图像特征促进未见域的泛化（属性无法描述的纹理/抽象概念）。

方法详解¶

整体框架¶

每个客户端在本地数据上训练PromptFormer网络（唯一可训练模块），生成的多模态视觉提示注入冻结的CLIP视觉编码器。训练后仅将轻量级PromptFormer参数发送到服务器进行FedAvg聚合。

关键设计¶

LLM属性生成:
- 功能：使用GPT-4o为每个类别名称生成丰富的文本属性描述
- 示例："giraffe" → "Exceptionally long neck, unique coat pattern with irregular brown patches, ..."
- 设计动机：标签名称本身包含的语义信息有限。属性提供了细粒度的类别共性描述——"鸡"的"两条腿"属性可以迁移到未见类"海鸥"
PromptFormer网络:
- 功能：将图像patch嵌入和文本属性嵌入通过交叉注意力融合，生成多模态视觉提示
- 核心架构：
  - 属性嵌入提取：$\mathbf{A}_i = \{\mathcal{E}_t(\text{LLM}(c_k))\}_{k=1}^K$
  - 线性投影对齐维度：$\mathbf{A}' = T_{\text{proj}}(\mathbf{A})$（512→768）
  - 交叉注意力融合： $$\mathbf{P}(\mathbf{A}', \mathbf{E}) = \text{FFN}(\text{CrossAttention}(\mathbf{Q}_\mathbf{E}, \mathbf{K}_{\mathbf{A}'}, \mathbf{V}_{\mathbf{A}'}))$$ 其中 $\mathbf{Q}_\mathbf{E} = \mathbf{E}W_\mathbf{Q}$（图像patch为query），$\mathbf{K}_{\mathbf{A}'} = \mathbf{A}'W_\mathbf{K}$（属性为key/value）
  - 4头交叉注意力 + LayerNorm + 两层FFN
- 设计动机：通过交叉注意力，图像的patch特征学习attend到相关的属性特征。例如，描绘"腿"的patch会关注"四条腿"属性——当出现共享该属性的未见类时，提示自然包含相关信息
视觉提示注入:
- 功能：将生成的多模态提示 $\mathbf{P} \in \mathbb{R}^{m \times d_v}$（$m=4$）拼接到视觉编码器的输入
- 输入重定义：$\mathbf{I} = [\mathbf{z}; \mathbf{E}; \mathbf{P}] \in \mathbb{R}^{(1+b+m) \times d_v}$
- 设计动机：与FedTPG等注入文本编码器的方法不同，视觉提示调优允许更直接地影响视觉特征表示，且支持实例级别的动态提示（每张图像生成不同的提示）
轻量级LoRA微调:
- 功能：当客户端的训练损失初始值低于阈值 $\sigma=0.5$ 时，冻结PromptFormer参数，仅训练注入的LoRA矩阵
- 设计动机：数据量少的客户端容易过拟合，LoRA将可训练参数减少 $267\times$，同时降低通信开销

损失函数 / 训练策略¶

CLIP交叉熵损失：$\mathcal{L}_{ce} = -\mathbb{E}_{(\mathbf{x},y)} y \log p(y|\mathbf{I})$
一致性损失：$\mathcal{L}_{con} = 1 - \cos(\mathcal{E}_v(\mathbf{I}), \mathcal{E}_v(\mathbf{x}'))$，约束同一图像两种增强视图的表示一致性
总损失：$\mathcal{L}_{total} = \mathcal{L}_{ce} + \alpha \cdot \mathcal{L}_{con}$，$\alpha = 10$
文本特征：$\mathbf{t}_k = \mathcal{E}_t([\text{"A photo of [CLASS]"}; \text{LLM}(c_k)])$，拼接手工模板和LLM属性
SGD优化器，学习率0.003，衰减1e-5，batch size 128，每类8-shot

实验关键数据¶

主实验（Base-to-New泛化，9个数据集）¶

方法	Local Acc	Base Acc	New Acc	HM
ZS-CLIP	76.72	70.51	75.78	74.24
PromptFL	81.75	74.47	71.70	75.74
FedTPG	80.75	73.68	76.02	76.70
FedMaPLe	81.63	74.44	70.62	75.29
FedMVP (Ours)	81.89	75.37	77.82	78.27
提升	+0.14	+0.90	+1.79	+1.57

消融实验 / 域泛化¶

设置 (DomainBed MSST)	PACS	OfficeHome	VLCS	TerraInc	DomainNet	平均
ZS-CLIP	96.16	81.49	83.29	33.98	57.13	70.41
FedTPG	90.99	82.78	69.77	26.79	56.82	65.43
FedCLIP	96.29	81.74	82.70	36.58	57.85	71.03
FedMVP (Ours)	97.28	84.15	85.12	37.36	61.17	73.02
提升	+0.99	+1.37	+1.83	+0.78	+2.29	+1.99

ImageNet域泛化 (SSMT)	IN	INV2	IN-S	IN-A	IN-R	平均
FedTPG	69.51	62.90	47.65	49.97	76.35	59.22
FedMVP (Ours)	70.87	63.72	50.93	51.76	77.23	60.91
提升	+1.36	+0.82	+3.28	+1.43	+0.74	+1.69

组件消融	Base-to-New HM	MSST DG Avg
ZS-CLIP	74.24	70.41
$f_\Theta$ only	75.94	71.85
$f_\Theta$ + $\mathcal{L}_{con}$	76.27	72.14
w/o LoRA	77.41	72.58
FedMVP (Full)	78.27	73.02

关键发现¶

多模态条件化是关键：FedMVP在未见类上比FedTPG（仅文本条件化）高1.79%，比FedCoCoOp（仅视觉条件化）高11.82%
IN-Sketch上提升尤为显著（+3.28%）：属性在真实图像和素描间保持不变（如"四条腿"），验证了属性特征的跨域迁移能力
多数提示学习方法在域泛化上不如ZS-CLIP：只有FedCLIP和FedMVP超过了零样本基线，说明不恰当的提示学习可能导致源域过拟合
LoRA防过拟合显著：不使用LoRA的FedMVP（w/o LoRA行）HM下降0.86%
FedMVP收敛比FedTPG快约10倍（通信轮次计），虽然每轮传输参数量多2倍但总通信成本更低
跨数据集泛化最具挑战：FedMVP在OxfordPets和StanfordCars上低于ZS-CLIP，可能因为细粒度类别间属性重叠

亮点与洞察¶

首次在FL中引入LLM生成的属性信息：属性作为类别间的共享知识桥梁，有效促进跨类别泛化
交叉注意力的直觉清晰：视觉patch作为query去检索相关属性，使得提示在面对新类别时能自动关注对应的共享属性
视觉提示而非文本提示：与主流方法相反，FedMVP选择在视觉编码器端注入提示，支持实例级别的动态化
LoRA自适应策略：根据客户端数据量自动切换全参数/LoRA训练，兼顾性能和防过拟合——这是对FL异质性的精细化适配

局限与展望¶

依赖GPT-4o生成属性，增加了部署环节的成本和对外部API的依赖
在细粒度数据集（OxfordPets、StanfordCars）上表现不如ZS-CLIP，属性重叠可能是根因——需要更细粒度的属性设计
仅使用ViT-B/16骨架，未验证更大模型（如ViT-L/14）的表现
LoRA的切换阈值 $\sigma=0.5$ 是手动设置的，自适应阈值可能更好
客户端数量增多时的可扩展性和通信效率仍需进一步分析

评分¶

新颖性: ⭐⭐⭐⭐ 多模态条件化+视觉提示调优的组合新颖，PromptFormer设计合理
实验充分度: ⭐⭐⭐⭐⭐ 20个数据集、三种泛化设置、多个FL基线、详尽消融
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，但符号系统稍复杂
价值: ⭐⭐⭐⭐ 为联邦VLM适配提供了实用方案，跨域泛化改进显著