Federated Active Learning Under Extreme Non-IID and Global Class Imbalance¶
会议: CVPR 2026
arXiv: 2603.10341
代码: GitHub
领域: 联邦学习 / 主动学习
关键词: federated learning, active learning, non-IID, class imbalance, query selection, class-fair sampling
一句话总结¶
系统分析全局类不平衡与客户端异构性对联邦主动学习中 query model 选择的影响,发现类平衡采样能力是性能的最一致预测因子,据此提出 FairFAL——自适应选择 query model + 原型引导伪标签 + 不确定性-多样性平衡采样的类公平 FAL 框架。
背景与动机¶
联邦学习(FL)实现隐私保护的协作训练,主动学习(AL)通过选择性标注降低标注成本,两者结合产生联邦主动学习(FAL)。然而现有 FAL 研究多在理想设置下进行,将客户端异构性仅视为数据划分问题,隐含假设全局类分布大致均衡。现实联邦系统中普遍存在全局长尾分布,稀有但关键的类别在客户端中稀疏出现,导致现有采样策略系统性偏向头部类别,标注预算使用效率低下。
核心问题¶
在 FAL 中自然存在两个 query 模型——全局聚合模型和客户端本地模型。哪个模型能实现更好的类平衡采样(特别是对稀有类),这种平衡如何影响最终全局模型的性能? 在全局类不平衡和客户端异构性的不同组合下,这个问题的答案如何变化?
方法详解¶
整体框架¶
FairFAL 包含三个协同组件:(1) 自适应模型选择——每个客户端根据全局不平衡程度和本地-全局分布差异自动选择最合适的 query model;(2) 原型引导伪标签——利用全局模型特征计算类原型,对未标注样本进行类感知伪标签分配,形成类级别候选池;(3) 不确定性-多样性平衡采样——两阶段策略,先按类不确定性选候选,再在梯度嵌入空间中做 k-center 多样性筛选。
关键设计¶
- 自适应模型选择:每个客户端 k 估计两个量——全局类不平衡比 γ_k(通过在类平衡子集上用全局模型预测得到的 softmax 先验的 min/max 比)和本地-全局分布散度 d_k(全局模型与本地模型预测先验的归一化对称差异)。模型选择分数 s_k = 1 - 0.5(d_k + γ̄),当 s_k > δ=0.75 时用全局模型,否则用本地模型。γ̄ 仅第一轮计算(此时标注数据为随机采样,近似 IID),d_k 每轮更新。所有估计仅上传标量,保护隐私。
- 原型引导伪标签:利用全局模型(具有更强泛化性的特征表示,由 Observation 3 支持)提取 L2 归一化特征,计算每类原型 μ_c;对未标注样本计算与各原型的余弦相似度,分配伪标签 ŷ(x) = argmax_c s_c(x),将未标注池分割为类级候选子集 D̃_{U,c}。这避免了长尾分类器预测偏向头部类的问题。
- 两阶段不确定性-多样性采样:Stage 1——对每个类的候选子集,用所选 query model 计算不确定性(如熵),取 top-κ·b_c 个最不确定样本组成过完备候选池(κ=4)。Stage 2——在梯度嵌入空间(全局模型的分类梯度)中,以已标注样本为锚点,对每类执行 k-center 贪心选择 b_c 个样本,同时保证信息性和多样性。最终 query 集为所有类的并集。
损失函数 / 训练策略¶
- 标准 FedAvg 框架,100 通信轮,每客户端 5 本地 epoch
- 4 层 CNN 骨干,SGD(momentum=0.9, WD=1e-5, batch=64),LR=0.01,75 轮后衰减 10×
- FAL 进行 9 轮 query,首轮随机标注 5%,后续每轮 query 5%
- 10 个客户端,Dirichlet 划分(α=0.1 或 100),全局不平衡比 ρ=20
- 5 个随机种子,NVIDIA RTX 3090
实验关键数据¶
五个数据集在 α=0.1, ρ=20 下的最终轮测试准确率:
| 方法 | FMNIST | CIFAR-10 | CIFAR-100 |
|---|---|---|---|
| Random | 85.60 | 55.70 | 27.44 |
| KAFAL | 87.05 | 60.01 | 27.84 |
| LoGo | 86.98 | 59.68 | 27.95 |
| IFAL | 86.80 | 57.51 | 26.82 |
| FairFAL | 87.37 | 60.44 | 29.20 |
医学数据集(α=0.1,自然长尾分布):
| 方法 | OctMNIST | DermaMNIST |
|---|---|---|
| Random | 68.30 | 72.32 |
| KAFAL | 70.40 | 73.27 |
| LoGo | 70.00 | 73.62 |
| IFAL | 68.40 | 72.97 |
| FairFAL | 72.80 | 73.77 |
- FairFAL 在所有数据集和设置下一致性最优,优势随任务难度增大而扩大(FMNIST → CIFAR-100)
- α=100(同质客户端)下,FairFAL 在 CIFAR-100 上达到 30.02%(vs. 最强基线 29.42%)
消融实验要点¶
- 自适应模型选择:使用自适应选择的模型 M(k) 始终优于其对立选项 M̃(k),验证了自适应机制的有效性
- 全局 vs. 本地原型:基于全局特征的原型始终优于本地特征原型,全局模型提供更干净的类分离
- 候选池大小 κ:κ=2/3/4 性能差异微小,方法对 κ 不敏感;选 κ=4 获得最大多样性空间
- 阈值 δ 敏感性:δ 从 0.65 到 0.85 性能变化极小(<0.5%),模型选择分数本身已提供了清晰的全局/本地区分
- 不确定性度量:Entropy/Margin/LC 三种度量性能差异在 0.3-0.6% 以内
- FL 框架泛化性:在 FedProx 和 SCAFFOLD 下也一致最优,方法与底层 FL 优化器正交
- 客户端数量:5/10/20 客户端都保持优势,可扩展
- 骨干架构:MobileNet 和 ResNet-18 都一致最优
亮点 / 我学到了什么¶
- 核心洞察极为清晰:类平衡采样能力(特别是对少数类)是 FAL 中比不确定性或多样性更一致的性能预测因子
- 三个 Observation 的推导很有教育意义:(1) 不确定性采样中本地模型通常优于全局模型(除非全局高度不平衡+客户端同质);(2) 类平衡采样与最终性能高度对齐;(3) 多样性采样中全局模型始终优于本地模型
- 原型引导伪标签绕过了长尾分类器决策边界偏移的问题——在特征空间中做类分配比在 logit 空间中更鲁棒
- 整个框架设计从经验观察出发,每个组件都有明确的动机对应
局限性 / 可改进方向¶
- 自适应选择是硬切换(s_k > δ 全局,否则本地),未尝试软混合两个模型的 query 结果
- 均匀预算分配(每类 b_c 相同)是否为最优策略值得商榷——可考虑按类不平衡程度动态调整
- 仅在图像分类上验证,对目标检测、语义分割等更复杂任务的适用性未知
- 假设第一轮 query 是随机的以保证 IID 近似——在实际系统中这一假设可能不成立
- 全局不平衡比 γ̄ 仅第一轮估计后固定,不随 query 进程更新
与相关工作的对比¶
- vs. LoGo (Kim et al., CVPR 2023):LoGo 先做本地聚类再用全局不确定性打分;FairFAL 显式引入类公平约束和自适应模型选择,在长尾设置下优势明显
- vs. KAFAL (Cao et al., ICCV 2023):KAFAL 利用全局-本地预测差异引导采样但不处理类不平衡;FairFAL 通过原型伪标签实现类感知 query
- vs. IFAL (Zong et al., IJCAI 2025):IFAL 关注 inconsistency-based 采样但缺乏类平衡机制;在多个设置下性能甚至低于随机采样,而 FairFAL 一致优于所有基线
- vs. BADGE (Ash et al., 2019):BADGE 是集中式混合 AL 方法,FairFAL 的两阶段采样可视为 BADGE 在联邦+类公平设置下的扩展
与我的研究方向的关联¶
- 可能关联:
20260316_adaptive_model_routing.md - 可能关联:
20260316_register_guided_dense_prediction.md - 可能关联:
20260316_verifier_pseudo_label_open_world.md
评分¶
- 新颖性: 7/10 — 三个 Observation 形成的分析框架有洞察力,FairFAL 的设计动机清晰自洽
- 实验充分度: 9/10 — 5 个数据集、多种 FL 框架/骨干/客户端数/超参的全面消融,统计检验严谨
- 写作质量: 8/10 — 从 Observation 到方法设计的逻辑链非常清晰,公式推导完整
- 价值: 7/10 — 对长尾联邦场景下的主动学习提供了系统性理解和实用解决方案