Federated Active Learning Under Extreme Non-IID and Global Class Imbalance¶

会议: CVPR 2026
arXiv: 2603.10341
代码: GitHub
领域: 联邦学习 / 主动学习
关键词: federated learning, active learning, non-IID, class imbalance, query selection, class-fair sampling

一句话总结¶

系统分析全局类不平衡与客户端异构性对联邦主动学习中 query model 选择的影响，发现类平衡采样能力是性能的最一致预测因子，据此提出 FairFAL——自适应选择 query model + 原型引导伪标签 + 不确定性-多样性平衡采样的类公平 FAL 框架。

背景与动机¶

联邦学习（FL）实现隐私保护的协作训练，主动学习（AL）通过选择性标注降低标注成本，两者结合产生联邦主动学习（FAL）。然而现有 FAL 研究多在理想设置下进行，将客户端异构性仅视为数据划分问题，隐含假设全局类分布大致均衡。现实联邦系统中普遍存在全局长尾分布，稀有但关键的类别在客户端中稀疏出现，导致现有采样策略系统性偏向头部类别，标注预算使用效率低下。

核心问题¶

在 FAL 中自然存在两个 query 模型——全局聚合模型和客户端本地模型。哪个模型能实现更好的类平衡采样（特别是对稀有类），这种平衡如何影响最终全局模型的性能？ 在全局类不平衡和客户端异构性的不同组合下，这个问题的答案如何变化？

方法详解¶

整体框架¶

FairFAL 包含三个协同组件：(1) 自适应模型选择——每个客户端根据全局不平衡程度和本地-全局分布差异自动选择最合适的 query model；(2) 原型引导伪标签——利用全局模型特征计算类原型，对未标注样本进行类感知伪标签分配，形成类级别候选池；(3) 不确定性-多样性平衡采样——两阶段策略，先按类不确定性选候选，再在梯度嵌入空间中做 k-center 多样性筛选。

关键设计¶

自适应模型选择：每个客户端 k 估计两个量——全局类不平衡比 γ_k（通过在类平衡子集上用全局模型预测得到的 softmax 先验的 min/max 比）和本地-全局分布散度 d_k（全局模型与本地模型预测先验的归一化对称差异）。模型选择分数 s_k = 1 - 0.5(d_k + γ̄)，当 s_k > δ=0.75 时用全局模型，否则用本地模型。γ̄ 仅第一轮计算（此时标注数据为随机采样，近似 IID），d_k 每轮更新。所有估计仅上传标量，保护隐私。
原型引导伪标签：利用全局模型（具有更强泛化性的特征表示，由 Observation 3 支持）提取 L2 归一化特征，计算每类原型 μ_c；对未标注样本计算与各原型的余弦相似度，分配伪标签 ŷ(x) = argmax_c s_c(x)，将未标注池分割为类级候选子集 D̃_{U,c}。这避免了长尾分类器预测偏向头部类的问题。
两阶段不确定性-多样性采样：Stage 1——对每个类的候选子集，用所选 query model 计算不确定性（如熵），取 top-κ·b_c 个最不确定样本组成过完备候选池（κ=4）。Stage 2——在梯度嵌入空间（全局模型的分类梯度）中，以已标注样本为锚点，对每类执行 k-center 贪心选择 b_c 个样本，同时保证信息性和多样性。最终 query 集为所有类的并集。

损失函数 / 训练策略¶

标准 FedAvg 框架，100 通信轮，每客户端 5 本地 epoch
4 层 CNN 骨干，SGD（momentum=0.9, WD=1e-5, batch=64），LR=0.01，75 轮后衰减 10×
FAL 进行 9 轮 query，首轮随机标注 5%，后续每轮 query 5%
10 个客户端，Dirichlet 划分（α=0.1 或 100），全局不平衡比 ρ=20
5 个随机种子，NVIDIA RTX 3090

实验关键数据¶

五个数据集在 α=0.1, ρ=20 下的最终轮测试准确率：

方法	FMNIST	CIFAR-10	CIFAR-100
Random	85.60	55.70	27.44
KAFAL	87.05	60.01	27.84
LoGo	86.98	59.68	27.95
IFAL	86.80	57.51	26.82
FairFAL	87.37	60.44	29.20

医学数据集（α=0.1，自然长尾分布）：

方法	OctMNIST	DermaMNIST
Random	68.30	72.32
KAFAL	70.40	73.27
LoGo	70.00	73.62
IFAL	68.40	72.97
FairFAL	72.80	73.77

FairFAL 在所有数据集和设置下一致性最优，优势随任务难度增大而扩大（FMNIST → CIFAR-100）
α=100（同质客户端）下，FairFAL 在 CIFAR-100 上达到 30.02%（vs. 最强基线 29.42%）

消融实验要点¶

自适应模型选择：使用自适应选择的模型 M(k) 始终优于其对立选项 M̃(k)，验证了自适应机制的有效性
全局 vs. 本地原型：基于全局特征的原型始终优于本地特征原型，全局模型提供更干净的类分离
候选池大小 κ：κ=2/3/4 性能差异微小，方法对 κ 不敏感；选 κ=4 获得最大多样性空间
阈值 δ 敏感性：δ 从 0.65 到 0.85 性能变化极小（<0.5%），模型选择分数本身已提供了清晰的全局/本地区分
不确定性度量：Entropy/Margin/LC 三种度量性能差异在 0.3-0.6% 以内
FL 框架泛化性：在 FedProx 和 SCAFFOLD 下也一致最优，方法与底层 FL 优化器正交
客户端数量：5/10/20 客户端都保持优势，可扩展
骨干架构：MobileNet 和 ResNet-18 都一致最优

亮点 / 我学到了什么¶

核心洞察极为清晰：类平衡采样能力（特别是对少数类）是 FAL 中比不确定性或多样性更一致的性能预测因子
三个 Observation 的推导很有教育意义：(1) 不确定性采样中本地模型通常优于全局模型（除非全局高度不平衡+客户端同质）；(2) 类平衡采样与最终性能高度对齐；(3) 多样性采样中全局模型始终优于本地模型
原型引导伪标签绕过了长尾分类器决策边界偏移的问题——在特征空间中做类分配比在 logit 空间中更鲁棒
整个框架设计从经验观察出发，每个组件都有明确的动机对应

局限性 / 可改进方向¶

自适应选择是硬切换（s_k > δ 全局，否则本地），未尝试软混合两个模型的 query 结果
均匀预算分配（每类 b_c 相同）是否为最优策略值得商榷——可考虑按类不平衡程度动态调整
仅在图像分类上验证，对目标检测、语义分割等更复杂任务的适用性未知
假设第一轮 query 是随机的以保证 IID 近似——在实际系统中这一假设可能不成立
全局不平衡比 γ̄ 仅第一轮估计后固定，不随 query 进程更新

与相关工作的对比¶

vs. LoGo (Kim et al., CVPR 2023)：LoGo 先做本地聚类再用全局不确定性打分；FairFAL 显式引入类公平约束和自适应模型选择，在长尾设置下优势明显
vs. KAFAL (Cao et al., ICCV 2023)：KAFAL 利用全局-本地预测差异引导采样但不处理类不平衡；FairFAL 通过原型伪标签实现类感知 query
vs. IFAL (Zong et al., IJCAI 2025)：IFAL 关注 inconsistency-based 采样但缺乏类平衡机制；在多个设置下性能甚至低于随机采样，而 FairFAL 一致优于所有基线
vs. BADGE (Ash et al., 2019)：BADGE 是集中式混合 AL 方法，FairFAL 的两阶段采样可视为 BADGE 在联邦+类公平设置下的扩展

与我的研究方向的关联¶

可能关联: 20260316_adaptive_model_routing.md
可能关联: 20260316_register_guided_dense_prediction.md
可能关联: 20260316_verifier_pseudo_label_open_world.md

评分¶

新颖性: 7/10 — 三个 Observation 形成的分析框架有洞察力，FairFAL 的设计动机清晰自洽
实验充分度: 9/10 — 5 个数据集、多种 FL 框架/骨干/客户端数/超参的全面消融，统计检验严谨
写作质量: 8/10 — 从 Observation 到方法设计的逻辑链非常清晰，公式推导完整
价值: 7/10 — 对长尾联邦场景下的主动学习提供了系统性理解和实用解决方案