FairFAL: Federated Active Learning Under Extreme Non-IID and Global Class Imbalance¶

日期: 2026-03-11
arXiv: 2603.10341
代码: github.com/chenchenzong/FairFAL
领域: AI安全 / 联邦学习
关键词: federated learning, active learning, class imbalance, non-IID, prototype

一句话总结¶

系统性研究了联邦主动学习中全局/局部模型作为查询选择器的优劣，发现类别平衡采样（尤其是少数类采集）是性能关键，提出 FairFAL 框架通过自适应模型选择 + 原型引导伪标签 + 两阶段不确定性-多样性采样实现类别公平的联邦主动学习。

研究背景与动机¶

领域现状: 联邦主动学习 (FAL) 结合隐私保护的联邦学习与标注高效的主动学习，在标注预算受限的分布式场景（医疗影像、自动驾驶）中有重要价值。
现有痛点: 现有 FAL 方法（LoGo、KAFAL、IFAL）假设全局类别分布大致平衡，但现实中常见长尾分布 + 客户端高度异构。在这种条件下，采样策略系统性偏向头部类别，少数关键类别被忽视。
核心矛盾: FAL 中天然存在两种查询模型（全局聚合模型 vs 本地模型），哪个更适合取决于全局不平衡程度和客户端异质性——但之前没有系统研究。
切入角度: 通过系统实验发现三个关键观察：(1) 不确定性采样下局部模型通常更优，除非全局严重不平衡且客户端同质；(2) 类别平衡采样与最终性能强相关；(3) 多样性采样下全局模型始终更优（更好的特征空间）。
核心 idea: FairFAL = 自适应模型选择（根据不平衡度和异质度）+ 全局特征原型伪标签（类别感知）+ 两阶段采样（不确定性候选池 + k-center 多样性精炼）。

方法详解¶

整体框架¶

每轮 FAL：联邦训练 → 自适应选择查询模型 → 原型引导伪标签 → 两阶段类别平衡采样 → 标注 → 更新。

关键设计¶

自适应模型选择 (Sec 5.1):
- 通过全局模型在类别平衡子集上的预测分布估计全局不平衡比 \(\gamma_k\)
- 通过全局/局部模型预测分布的归一化对称差 \(d_k\) 估计异质度
- 模型选择分数 \(s_k = 1 - \frac{1}{2}(d_k + \bar{\gamma})\)，高分用全局模型，低分用局部模型
- 隐私保护：仅上传标量 \(\gamma_k\)
原型引导伪标签 (Sec 5.2):
- 用全局模型特征提取器计算每类原型（labeled 数据特征均值）
- 未标注样本按与原型的余弦相似度分配伪标签
- 全局特征比局部更具判别性，伪标签更可靠
- 得到类别级未标注池划分，为类别感知采样做基础
两阶段不确定性-多样性采样 (Sec 5.3):
- Stage 1: 每类选不确定性最高的 \(\kappa \cdot b_c^{(k)}\) 个样本作候选池（\(\kappa=4\)）
- Stage 2: 在梯度嵌入空间中做类别级 k-center 采样，以已标注样本为锚点，最大化覆盖
- 兼顾信息量（不确定性）和代表性（多样性），避免近重复样本浪费标注预算

实验关键数据¶

主实验 — CIFAR-100, ρ=20（从 Figure 3 读取）¶

方法	α=0.1 最终准确率	α=100 最终准确率
Random	~55%	~58%
KAFAL	~58%	~60%
LoGo	~57%	~59%
IFAL	~57%	~58%
FairFAL	~60%	~65%

消融实验（CIFAR-10）¶

配置	(α=0.1,ρ=20)	(α=100,ρ=20)
+自适应模型选择	59.33	63.65
+类别采样(全局原型)	59.95	64.02
+两阶段采样(κ=4)	60.44	64.57

医学影像（自然长尾）¶

数据集	Random	KAFAL	LoGo	IFAL	FairFAL
OctMNIST	68.30	70.40	70.00	68.40	72.80
DermaMNIST	72.32	73.27	73.62	72.97	73.77

关键发现¶

类别平衡采样是核心: 能采到更多少数类样本的模型，最终性能一定更好
全局模型仅在"高不平衡 + 低异质"时占优，其余情况局部模型更好
全局特征原型比局部原型伪标签更准确（更好的特征空间）
任务越难（FMNIST→CIFAR-100），FairFAL 相对优势越大
α=100（同质客户端）时基线方法退化严重，因为缺乏隐式多样性

亮点与洞察¶

系统性实证分析: 在提方法前先用严格统计检验（Wilcoxon、HL 估计）揭示全局/局部模型的适用条件——实证驱动的方法设计
隐私保护设计: 仅上传标量不平衡系数，不泄露任何原始数据或分布信息
三组件协同: 模型选择、类别感知、多样性精炼每步都有清晰的消融验证

局限性 / 可改进方向¶

实验仅 10 客户端，更大规模联邦（100+ 客户端）效果待验证
原型伪标签质量在极端长尾下可能退化（少数类仅有 1-2 个样本）
固定阈值 δ=0.75 可能不够灵活，自适应阈值可能更好

评分¶

新颖性: ⭐⭐⭐⭐ 实证观察驱动的自适应设计新颖实用
实验充分度: ⭐⭐⭐⭐ 5 数据集 + 11 基线 + 详细消融
写作质量: ⭐⭐⭐⭐ 观察-方法逻辑链清晰
价值: ⭐⭐⭐⭐ 对联邦长尾学习有直接实用价值