SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning¶

会议: CVPR 2026
arXiv: 2603.12976
代码: 无
领域: 联邦学习 / 数据选择
关键词: 联邦学习, coreset选择, VLM零样本, 长尾分布, 隐私保护

一句话总结¶

提出SCOPE——一个无需训练的联邦coreset选择框架，利用冻结VLM(MobileCLIP)的正交投影嵌入计算三个标量语义指标(表示性/多样性/边界接近度)，实现全局感知的两阶段剪枝，在CIFAR-10/Tiny-ImageNet/UHCS上通信带宽降128-512倍的同时超越全数据训练。

科学联邦数据集存在极端类别不平衡和非IID分布，但现有coreset方法依赖局部启发式（不了解全局数据分布），导致剪枝时丢弃全局稀有样本。基于代理数据集的方法(GCFL)违反隐私，基于梯度/损失的方法(EL2N)在科学数据中会放大传感器噪声。

如何在联邦设置下实现：(1)无需训练的coreset选择，(2)全局感知跨客户端类分布但不传输重量级嵌入，(3)对极端非IID和长尾不平衡鲁棒？

客户端用冻结MobileCLIP-S2提取每样本三个标量指标 → 只发送类级标量统计(均值/方差)到服务器 → 服务器聚合为Global Profile → 客户端据此执行两阶段本地剪枝 → 在剪枝后数据上做标准FedAvg训练。

三指标正交投影打分: 表示性分数\(RS = v_{img} \cdot t_c\)（与GT文本原型余弦相似度），多样性分数\(DS = \|v_{res}\|_2\)（正交残差向量的模——量化超越类定义的新视觉特征），边界接近度\(S_{neg} = \max_{j \neq c} v_{img} \cdot t_j\)（与最近错误类的相似度）。
两阶段剪枝: Stage 1共识滤波：异常分数\(AS = \hat{Z}_{S_{neg}} - \hat{Z}_{RS}\)（高边界接近+低表示性=异常），剪除top-\(p_l\)异常。Stage 2动态平衡：冗余分数\(R = \hat{Z}_{RS} - \hat{Z}_{S_{neg}} - \hat{Z}_{DS}\)（高表示性+低边界+低多样性=冗余），仅对全局过度表示的类（Targeting Metric \(T_c > \beta\)）剪除。
全局稀缺性感知+隐私保护: 全局稀缺性权重\(W_c \propto (1/(F_c+\epsilon))^\gamma\)保护长尾类。只传输标量统计(O(C))而非嵌入(O(C×D))，带宽降128-512倍。

Coreset选择零样本无训练。后续用标准FedAvg+SGD+cosine decay在剪枝数据上训练。

数据集	IR	\(p_f\)	SCOPE	最强基线	全数据
CIFAR-10	2	0.1	56.48%	FedCore 55.96%	55.63%
CIFAR-10	10	0.1	45.65%	FedCore 44.98%	45.07%
Tiny-ImageNet	5	0.9	55.38%	Forgetting 54.04%	54.41%
UHCS	10	0.1	95.36%	FedCS 93.17%	93.99%
UHCS	10	0.9	92.62%	EL2N 84.70%	93.99%

通信效率: 128-512×带宽降低。ViT-B-16 7.72×加速。