跳转至

Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

会议: CVPR 2026
arXiv: 2603.10341
代码: GitHub
领域: 联邦学习 / 主动学习
关键词: federated learning, active learning, non-IID, class imbalance, query selection, class-fair sampling

一句话总结

系统分析全局类不平衡与客户端异构性对联邦主动学习中 query model 选择的影响,发现类平衡采样能力是性能的最一致预测因子,据此提出 FairFAL——自适应选择 query model + 原型引导伪标签 + 不确定性-多样性平衡采样的类公平 FAL 框架。

背景与动机

联邦学习(FL)实现隐私保护的协作训练,主动学习(AL)通过选择性标注降低标注成本,两者结合产生联邦主动学习(FAL)。然而现有 FAL 研究多在理想设置下进行,将客户端异构性仅视为数据划分问题,隐含假设全局类分布大致均衡。现实联邦系统中普遍存在全局长尾分布,稀有但关键的类别在客户端中稀疏出现,导致现有采样策略系统性偏向头部类别,标注预算使用效率低下。

核心问题

在 FAL 中自然存在两个 query 模型——全局聚合模型和客户端本地模型。哪个模型能实现更好的类平衡采样(特别是对稀有类),这种平衡如何影响最终全局模型的性能? 在全局类不平衡和客户端异构性的不同组合下,这个问题的答案如何变化?

方法详解

整体框架

FairFAL 包含三个协同组件:(1) 自适应模型选择——每个客户端根据全局不平衡程度和本地-全局分布差异自动选择最合适的 query model;(2) 原型引导伪标签——利用全局模型特征计算类原型,对未标注样本进行类感知伪标签分配,形成类级别候选池;(3) 不确定性-多样性平衡采样——两阶段策略,先按类不确定性选候选,再在梯度嵌入空间中做 k-center 多样性筛选。

关键设计

  1. 自适应模型选择:每个客户端 k 估计两个量——全局类不平衡比 γ_k(通过在类平衡子集上用全局模型预测得到的 softmax 先验的 min/max 比)和本地-全局分布散度 d_k(全局模型与本地模型预测先验的归一化对称差异)。模型选择分数 s_k = 1 - 0.5(d_k + γ̄),当 s_k > δ=0.75 时用全局模型,否则用本地模型。γ̄ 仅第一轮计算(此时标注数据为随机采样,近似 IID),d_k 每轮更新。所有估计仅上传标量,保护隐私。
  2. 原型引导伪标签:利用全局模型(具有更强泛化性的特征表示,由 Observation 3 支持)提取 L2 归一化特征,计算每类原型 μ_c;对未标注样本计算与各原型的余弦相似度,分配伪标签 ŷ(x) = argmax_c s_c(x),将未标注池分割为类级候选子集 D̃_{U,c}。这避免了长尾分类器预测偏向头部类的问题。
  3. 两阶段不确定性-多样性采样:Stage 1——对每个类的候选子集,用所选 query model 计算不确定性(如熵),取 top-κ·b_c 个最不确定样本组成过完备候选池(κ=4)。Stage 2——在梯度嵌入空间(全局模型的分类梯度)中,以已标注样本为锚点,对每类执行 k-center 贪心选择 b_c 个样本,同时保证信息性和多样性。最终 query 集为所有类的并集。

损失函数 / 训练策略

  • 标准 FedAvg 框架,100 通信轮,每客户端 5 本地 epoch
  • 4 层 CNN 骨干,SGD(momentum=0.9, WD=1e-5, batch=64),LR=0.01,75 轮后衰减 10×
  • FAL 进行 9 轮 query,首轮随机标注 5%,后续每轮 query 5%
  • 10 个客户端,Dirichlet 划分(α=0.1 或 100),全局不平衡比 ρ=20
  • 5 个随机种子,NVIDIA RTX 3090

实验关键数据

五个数据集在 α=0.1, ρ=20 下的最终轮测试准确率

方法 FMNIST CIFAR-10 CIFAR-100
Random 85.60 55.70 27.44
KAFAL 87.05 60.01 27.84
LoGo 86.98 59.68 27.95
IFAL 86.80 57.51 26.82
FairFAL 87.37 60.44 29.20

医学数据集(α=0.1,自然长尾分布)

方法 OctMNIST DermaMNIST
Random 68.30 72.32
KAFAL 70.40 73.27
LoGo 70.00 73.62
IFAL 68.40 72.97
FairFAL 72.80 73.77
  • FairFAL 在所有数据集和设置下一致性最优,优势随任务难度增大而扩大(FMNIST → CIFAR-100)
  • α=100(同质客户端)下,FairFAL 在 CIFAR-100 上达到 30.02%(vs. 最强基线 29.42%)

消融实验要点

  • 自适应模型选择:使用自适应选择的模型 M(k) 始终优于其对立选项 M̃(k),验证了自适应机制的有效性
  • 全局 vs. 本地原型:基于全局特征的原型始终优于本地特征原型,全局模型提供更干净的类分离
  • 候选池大小 κ:κ=2/3/4 性能差异微小,方法对 κ 不敏感;选 κ=4 获得最大多样性空间
  • 阈值 δ 敏感性:δ 从 0.65 到 0.85 性能变化极小(<0.5%),模型选择分数本身已提供了清晰的全局/本地区分
  • 不确定性度量:Entropy/Margin/LC 三种度量性能差异在 0.3-0.6% 以内
  • FL 框架泛化性:在 FedProx 和 SCAFFOLD 下也一致最优,方法与底层 FL 优化器正交
  • 客户端数量:5/10/20 客户端都保持优势,可扩展
  • 骨干架构:MobileNet 和 ResNet-18 都一致最优

亮点 / 我学到了什么

  • 核心洞察极为清晰:类平衡采样能力(特别是对少数类)是 FAL 中比不确定性或多样性更一致的性能预测因子
  • 三个 Observation 的推导很有教育意义:(1) 不确定性采样中本地模型通常优于全局模型(除非全局高度不平衡+客户端同质);(2) 类平衡采样与最终性能高度对齐;(3) 多样性采样中全局模型始终优于本地模型
  • 原型引导伪标签绕过了长尾分类器决策边界偏移的问题——在特征空间中做类分配比在 logit 空间中更鲁棒
  • 整个框架设计从经验观察出发,每个组件都有明确的动机对应

局限性 / 可改进方向

  • 自适应选择是硬切换(s_k > δ 全局,否则本地),未尝试软混合两个模型的 query 结果
  • 均匀预算分配(每类 b_c 相同)是否为最优策略值得商榷——可考虑按类不平衡程度动态调整
  • 仅在图像分类上验证,对目标检测、语义分割等更复杂任务的适用性未知
  • 假设第一轮 query 是随机的以保证 IID 近似——在实际系统中这一假设可能不成立
  • 全局不平衡比 γ̄ 仅第一轮估计后固定,不随 query 进程更新

与相关工作的对比

  • vs. LoGo (Kim et al., CVPR 2023):LoGo 先做本地聚类再用全局不确定性打分;FairFAL 显式引入类公平约束和自适应模型选择,在长尾设置下优势明显
  • vs. KAFAL (Cao et al., ICCV 2023):KAFAL 利用全局-本地预测差异引导采样但不处理类不平衡;FairFAL 通过原型伪标签实现类感知 query
  • vs. IFAL (Zong et al., IJCAI 2025):IFAL 关注 inconsistency-based 采样但缺乏类平衡机制;在多个设置下性能甚至低于随机采样,而 FairFAL 一致优于所有基线
  • vs. BADGE (Ash et al., 2019):BADGE 是集中式混合 AL 方法,FairFAL 的两阶段采样可视为 BADGE 在联邦+类公平设置下的扩展

与我的研究方向的关联

  • 可能关联: 20260316_adaptive_model_routing.md
  • 可能关联: 20260316_register_guided_dense_prediction.md
  • 可能关联: 20260316_verifier_pseudo_label_open_world.md

评分

  • 新颖性: 7/10 — 三个 Observation 形成的分析框架有洞察力,FairFAL 的设计动机清晰自洽
  • 实验充分度: 9/10 — 5 个数据集、多种 FL 框架/骨干/客户端数/超参的全面消融,统计检验严谨
  • 写作质量: 8/10 — 从 Observation 到方法设计的逻辑链非常清晰,公式推导完整
  • 价值: 7/10 — 对长尾联邦场景下的主动学习提供了系统性理解和实用解决方案