Cooperative Pseudo Labeling for Unsupervised Federated Classification¶

会议: ICCV 2025
arXiv: 2510.10100
代码: https://github.com/krumpguo/FedCoPL
领域: 优化 / 联邦学习
关键词: 无监督联邦学习, 伪标签, CLIP, prompt tuning, 标签偏移

一句话总结¶

FedCoPL 首次将无监督联邦学习扩展到分类任务，通过协作伪标签策略（全局分配伪标签确保类别平衡）和部分 prompt 聚合协议（仅聚合视觉 prompt、保留文本 prompt 本地化）有效应对 CLIP 固有偏差和标签偏移挑战。

研究背景与动机¶

联邦学习（FL）是保护数据隐私的分布式学习范式。传统 FL 依赖各客户端有标注数据，但标注成本高昂且需要领域专家。无监督联邦学习（UFL）虽已有研究，但此前的 UFL 方法仅聚焦于表示学习和聚类任务，无法直接用于分类。

CLIP 等视觉语言模型的出现改变了这一格局——其强大的零样本分类能力降低了对标注数据的依赖。然而，将 CLIP 直接应用于 UFL 框架面临两个核心挑战：

挑战 1：CLIP 固有偏差 + 未知标签分布¶

CLIP 在 web-scale 数据上预训练，对某些类别存在偏好。直接用 CLIP 生成伪标签会导致： - 偏好类别被过度选择，即使伪标签不正确 - 各客户端的真实标签分布未知（只有无标签数据） - 全局训练严重失衡——某些类别被大量训练，某些被忽略

例子：假设客户端真实标签分布为 [0.1, 0.1, 0.8]，CLIP 生成的伪标签分布可能是 [0.6, 0.05, 0.35]——精度低且不能代表真实分布。

挑战 2：标签偏移导致聚合冲突¶

联邦场景下各客户端的标签分布不同（label skew），导致模型更新方向存在差异。简单平均聚合 prompt 参数会产生冲突，降低性能。

切入角度： 1. 让客户端估计本地伪标签分布 → 服务端全局重新分配 → 实现跨类别平衡 2. 利用视觉/文本 prompt 的特性差异——视觉 prompt 跨客户端相似（学通用图像表示），文本 prompt 差异大（编码类别特定知识）→ 只聚合视觉 prompt

方法详解¶

整体框架¶

FedCoPL 包含两大核心策略： 1. 协作伪标签（CoPL）：客户端估计分布 → 上传服务端 → 全局调整 → 下发各客户端 2. 部分 prompt 聚合：视觉 prompt 上传聚合，文本 prompt 本地保留

关键设计¶

1. 协作伪标签策略（CoPL）¶

第一步：本地分布估计

每个客户端 $k$ 通过置信度和熵双重过滤，从无标签集 $D_k$ 中筛选出估计集：

\[D_k^{est} = \{(x, \hat{y}) \mid \max_c p_c(x) > \tau_1, \; Ent(p(x)) < \tau_2\}\]

其中 $\tau_1$ 和 $\tau_2$ 分别取置信度和熵的中位数。

设计动机：高置信度确保伪标签可靠，低熵确保预测不模糊。使用中位数作为动态阈值避免手动调参。

第二步：统计上传

客户端计算各类别的伪标签数量得到估计分布 $U_k^{est}$（C 维向量），上传至服务端。注意：上传的仅是统计信息，非原始数据，保护隐私。

第三步：全局分配

服务端按比例将 $M = \frac{\sum_k \sum_c u_{k,c}}{C}$（每类全局预算）分配给各客户端：

\[\tilde{u}_{k,c} = \left\lceil \frac{u_{k,c}}{\sum_{i \in K} u_{i,c}} \cdot M \right\rceil\]

关键洞察：使用比例分配而非绝对值——即使估计分布有噪声，比例关系仍能保持代表性。

第四步：本地选择

客户端 $k$ 按调整后的容量 $\tilde{U}_k$，为每类选择预测概率最高的样本构建训练集 $\tilde{D}_k$。

每隔 Q 轮（默认 Q=5）用最新模型重新执行伪标签生成-估计-分配-选择流程。

2. 部分 prompt 聚合协议¶

作者通过实验发现了一个重要现象：文本 prompt 在客户端间的差异显著大于视觉 prompt。

用 drift diversity 和 cosine distance 两个指标度量发现： - 视觉 prompt 差异小 → 学习的是通用图像表示 - 文本 prompt 差异大 → 编码了与本地标签分布相关的类别特定知识

基于此，提出： - 视觉 prompt $P_k^v$：上传至服务端做加权平均聚合 $$P^v = \sum_{k=1}^K \frac{\tilde{n}_k}{\sum_i \tilde{n}_i} \cdot P_k^v$$ - 文本 prompt $P_k^t$：保留在本地，实现个性化

聚合后的视觉 prompt 下发给各客户端作为下一轮的初始化。

额外收益：只传输视觉 prompt 还减少了 50% 的通信开销。

损失函数 / 训练策略¶

总目标函数： $$\min_{P^v, \{P_k^t\}} \sum_{k=1}^K \mathbb{E}_{(x, \hat{y}) \in \tilde{D}_k} \ell_{ce}(g(P^v, P_k^t; x), \hat{y})$$

冻结 CLIP 骨干（ViT-B/32 或 ViT-B/16），仅训练 prompt
SGD 优化器，学习率 0.1，余弦退火
20 轮通信，每轮 10 个 epoch 本地训练

实验关键数据¶

主实验¶

Dirichlet-based 标签偏移（β=0.1），ViT/B-32 骨干：

方法	PL	DTD	RESISC45	CUB	UCF101	CIFAR10	CIFAR100	平均
CLIP 零样本	-	43.24	54.51	51.28	61.00	86.93	64.17	60.19
PromptFL + FPL	FPL	45.79	59.76	47.29	64.39	87.51	63.26	61.33
pFedPrompt + CPL	CPL	44.22	61.76	47.23	65.59	90.26	65.63	62.45
FedOPT + CPL	CPL	37.43	51.10	46.61	58.93	91.08	57.87	57.17
FedCoPL	CoPL	60.89	75.76	56.09	73.20	95.38	73.59	72.49

FedCoPL 平均精度 72.49%，比最佳基线高约 10%。特别是在 RESISC45（75.76% vs 65.95%）和 UCF101（73.20% vs 65.59%）上优势巨大。

消融实验¶

置信度过滤	熵过滤	全局分配	DTD	RESISC45	CUB	UCF101
✗	✗	✗	45.79	59.76	47.29	64.39
✗	✗	✓	46.35	69.60	51.98	65.31
✓	✓	✗	(未单独评估)	-	-	-
✓	✓	✓	60.89	75.76	56.09	73.20

prompt 聚合策略消融：

聚合文本	聚合视觉	DTD	RESISC45	CUB	UCF101
✗	✗（两者都保留本地）	50.45	61.72	49.08	66.02
✓	✓（两者都聚合）	47.34	61.68	49.08	64.97
✓	✗（仅聚合文本）	55.31	67.12	51.76	69.53
✗	✓（仅聚合视觉）	60.89	75.76	56.09	73.20

仅聚合视觉 prompt 的策略效果最佳，验证了视觉/文本 prompt 特性差异的假设。

关键发现¶

全局分配是核心：全局分配策略在 RESISC45 上单独贡献约 +10%，解决了 CLIP 偏差导致的类别不平衡
CoPL 可即插即用：将 CoPL 替换到其他联邦框架中，FedOPT + CoPL 在 RESISC45 上提升 17.09%
客户端数量增长时优势更大：当客户端从 5 增至 50，基线方法性能大幅下滑，FedCoPL 保持稳定
伪标签精度：CoPL 的伪标签精度在 CIFAR10 上达到 96.07%（vs FPL 91.02%，CPL 92.18%）

亮点与洞察¶

首次将 UFL 扩展到分类：开辟了新的研究方向，利用 VLM 的零样本能力弥补无标签的缺陷
比例分配优于绝对值：即使估计不准确，比例信息仍能保持代表性——这是一个适用于更多场景的通用策略
隐私增强：仅上传伪标签分布统计（而非精确类别分布），从 CLIP 预测派生，无法逆推真实数据分布
视觉/文本 prompt 差异的发现：为联邦 prompt learning 提供了实证依据和设计原则

局限与展望¶

假设全局标签分布均匀（uniform）——在实际场景中可能不成立
未提供收敛性、隐私和公平性的理论分析（论文中提到作为未来工作）
$\tau_1$、$\tau_2$ 使用中位数的默认值可能非最优（虽然实验表明对此不敏感）
尚未探索更大规模 VLM（如 GPT-4V）或更复杂任务（如分割、检测）

评分¶

新颖性：⭐⭐⭐⭐ — 首次将 UFL 扩展到分类，问题定义有开创性
技术深度：⭐⭐⭐⭐ — 全局分配策略和部分聚合协议设计合理
实验充分度：⭐⭐⭐⭐⭐ — 6 个数据集、两种偏移类型、多种基线、全面消融
实用性：⭐⭐⭐⭐ — 无需标签、通信高效、隐私保护，适合实际联邦场景