Client2Vec: Improving Federated Learning by Distribution Shifts Aware Client Indexing¶

会议: ICCV 2025
arXiv: 2405.16233
代码: https://github.com/LINs-lab/client2vec
领域: AI安全/联邦学习
关键词: 联邦学习, 分布偏移, 客户端索引, CLIP, 非IID数据

一句话总结¶

提出Client2Vec机制，在联邦学习训练前利用CLIP编码器和分布偏移感知索引生成网络（DSA-IGN）为每个客户端生成包含标签和特征分布信息的索引向量，进而改善客户端采样、模型聚合和本地训练三个关键阶段。

研究背景与动机¶

联邦学习（FL）的核心挑战在于客户端之间的数据分布异构性（non-IID）。现有方法主要在训练过程中进行优化：改进客户端采样策略、模型聚合权重或本地训练目标等。但很少有工作从训练之前入手来缓解该问题。

已有的预训练阶段工作（如数据集蒸馏FedFed、合成伪数据VHL）存在额外计算成本高、适用场景有限、与训练流程不兼容等缺点。受NLP中Word2Vec和域泛化中域索引的启发，作者提出了一个关键问题：能否在训练前为每个客户端生成一个"身份向量"，编码其本地数据分布信息，从而在整个训练流程中提供辅助？

Client2Vec的三大优势：(1) 索引生成与FL训练解耦，减轻训练负担；(2) 每个客户端仅需一个索引向量，高效简洁；(3) 可增强FL训练的所有阶段（采样、聚合、本地训练）。

方法详解¶

整体框架¶

分两个阶段：(1) 训练前——通过DSA-IGN网络为每个客户端生成索引向量 \(\boldsymbol{\beta}_i = [\boldsymbol{\beta}_i^f; \boldsymbol{\beta}_i^l]\)，包含特征索引和标签索引；(2) 训练中——利用生成的索引改进三个案例：客户端采样、模型聚合和本地训练。

关键设计¶

CLIP编码与索引定义: 利用预训练CLIP模型将原始数据 \((x_{i,j}, y_{i,j})\) 编码为图像嵌入 \(\mathbf{D}_{i,j}\)（包含标签和客户端特定信息）和标签嵌入 \(\mathbf{L}_{i,j}\)（仅包含标签信息）。样本标签索引直接设为 \(\mathbf{u}_{i,j}^l = \mathbf{L}_{i,j}\)；样本特征索引 \(\mathbf{u}_{i,j}^f\) 需从 \(\mathbf{D}_{i,j}\) 中分离出与标签无关的客户端特定信息。客户端索引为所有样本索引的均值：\(\boldsymbol{\beta}_i = \frac{1}{N_i}\sum_{j=1}^{N_i}\mathbf{u}_{i,j}\)。这一设计的核心理念是：特征索引应编码客户端特有的分布特征（如风格、背景等），而非与分类相关的标签信息。
分布偏移感知索引生成网络（DSA-IGN）: 使用三层Transformer编码器将 \(\mathbf{D}_{i,j}\) 分解为数据编码 \(\mathbf{z}_{i,j}\)（与标签相关）和特征索引 \(\mathbf{u}_{i,j}^f\)（与标签无关）。训练目标包含四个损失：(a) \(\mathcal{L}_{\text{sim}}\)——对齐 \(\mathbf{z}_{i,j}\) 和标签嵌入，确保标签敏感性；(b) \(\mathcal{L}_{\text{orth}}\)——保证 \(\mathbf{u}_{i,j}^f\) 和 \(\mathbf{z}_{i,j}\) 正交独立；(c) \(\mathcal{L}_{\text{recon}}\)——拼接 \(\mathbf{u}_{i,j}^f\) 和 \(\mathbf{z}_{i,j}\) 重建 \(\mathbf{D}_{i,j}\)，保留完整信息；(d) \(\mathcal{L}_{\text{div}}\)——类似SimCLR的负对损失，促进不同样本的 \(\mathbf{u}_{i,j}^f\) 多样性，避免训练坍塌。支持Global（上传128样本到服务器集中训练）和Federated（通过FedAvg联邦训练）两种策略。
三个应用案例:
- 案例1（客户端采样）: 基于贪心策略，让第 \(t\) 轮采样的客户端与第 \(t-1\) 轮相似。采样概率 \(p_i^t = \frac{\exp(S(\boldsymbol{\beta}_i, \mathcal{C}^{t-1})/\tau)}{\sum_j \exp(S(\boldsymbol{\beta}_j, \mathcal{C}^{t-1})/\tau)}\)，其中相似度函数 \(S\) 同时考虑特征索引和标签索引的余弦相似度。
- 案例2（模型聚合）: 基于MWU算法，为相似度更高的客户端分配更大的聚合权重。求解优化问题得到 \(p_{i,g}^t \propto q_i^t \exp(\frac{1}{\lambda_1}\sum_{\tau=1}^t \gamma^{t-\tau} S(\beta_i, \mathcal{C}^\tau))\)，其中包含利润项（相似度）、熵项（正则化）和归一化约束。
- 案例3（本地训练）: 通过投影层将本地特征映射到与 \(\boldsymbol{\beta}_i^f\) 同维空间，添加正交损失 \(\mathcal{L}_{\text{orth}} = \|\mathbf{z}_P \mathbf{B}^f\|_1\) 鼓励本地特征学习与客户端特定信息正交的表征，加上蒸馏损失保留原始特征的信息量。

损失函数 / 训练策略¶

DSA-IGN的总损失为 \(\mathcal{L} = \mathcal{L}_{\text{div}} + \mathcal{L}_{\text{sim}} + \mathcal{L}_{\text{orth}} + \mathcal{L}_{\text{recon}}\)。FL训练阶段，本地训练损失为 \(\mathcal{L} = \mathcal{L}_{\text{cls}} + \mathcal{L}_{\text{orth}} + \mathcal{L}_{\text{dist}}\)，在标准分类损失基础上添加正交约束和知识蒸馏。

实验关键数据¶

主实验¶

数据集(模型)	FL算法	原始	+采样+聚合+本地训练(Global)	最大提升
Shakespeare(LSTM)	FedAvg	49.93	50.51	+0.58
CIFAR10(ResNet18)	FedAvg	42.24	59.29	+17.05
CIFAR10(ResNet18)	FedAvgM	42.56	69.37	+26.81
CIFAR10(ResNet18)	FedDyn	37.22	70.59	+33.37
DomainNet(MobileNetV2)	FedAvg	46.31	57.43	+11.12
DomainNet(MobileNetV2)	Moon	50.56	60.48	+9.92

在CIFAR10上提升最为显著（最高+33.37%），在DomainNet上也有10%+的提升，说明Client2Vec对标签偏移和特征偏移均有效。

消融实验¶

配置	CIFAR10(FedAvg)	DomainNet(FedAvg)	说明
原始	42.24	46.31	基线
+采样(i)	44.60	50.78	采样改进约2-4%
+采样+聚合(i+ii)	44.10	53.83	聚合进一步提升
+全部(i+ii+iii)	59.29	56.43	本地训练贡献最大

关键发现¶

三个案例的改进是递进累加的，且本地训练（案例3）贡献最大，说明消除本地特征中的客户端特定信息对模型泛化至关重要。
DomainNet上的可视化显示：同一特征域的客户端索引相似度接近1.0，不同域之间距离大，验证了索引向量有效编码了分布信息。
域间相似度与人类直觉一致：Real域与Clipart、Painting、Sketch更近，与Infograph、Quickdraw更远。
Global和Federated两种训练策略都能生成有意义的索引，Global策略的域边界更清晰。

亮点与洞察¶

将"训练前分析"与"训练中优化"解耦的思路值得借鉴：生成一次索引，全流程受益。
利用CLIP的跨模态对齐能力巧妙解决了"如何将标签和图像映射到同一空间"的问题。
正交约束的使用贯穿始终（索引生成阶段分离特征索引和数据编码，本地训练阶段分离本地特征和客户端特征索引），体现了一致的设计哲学。

局限与展望¶

依赖CLIP预训练模型，对于CLIP覆盖不好的领域（如医学影像）效果可能打折。
Global策略需要上传部分数据嵌入到服务器，虽然是CLIP特征而非原始数据，但隐私风险仍需评估。
在NLP任务（Shakespeare）上提升较小（<1%），说明对于分布偏移不严重的场景收益有限。
索引维度 \(d_i\) 的选择和DSA-IGN的训练epoch数需要针对不同场景调优。

评分¶

新颖性: ⭐⭐⭐⭐ 训练前索引生成的思路新颖，三个案例应用覆盖全面
实验充分度: ⭐⭐⭐⭐ 三个数据集×多个基线算法×两种训练策略，实验矩阵完整
写作质量: ⭐⭐⭐⭐ 结构清晰，定义严谨
价值: ⭐⭐⭐ 实际提升在不同场景差异较大，NLP场景收益有限