FairFAL: Federated Active Learning Under Extreme Non-IID and Global Class Imbalance¶
日期: 2026-03-11
arXiv: 2603.10341
代码: github.com/chenchenzong/FairFAL
领域: AI安全 / 联邦学习
关键词: federated learning, active learning, class imbalance, non-IID, prototype
一句话总结¶
系统性研究了联邦主动学习中全局/局部模型作为查询选择器的优劣,发现类别平衡采样(尤其是少数类采集)是性能关键,提出 FairFAL 框架通过自适应模型选择 + 原型引导伪标签 + 两阶段不确定性-多样性采样实现类别公平的联邦主动学习。
研究背景与动机¶
-
领域现状: 联邦主动学习 (FAL) 结合隐私保护的联邦学习与标注高效的主动学习,在标注预算受限的分布式场景(医疗影像、自动驾驶)中有重要价值。
-
现有痛点: 现有 FAL 方法(LoGo、KAFAL、IFAL)假设全局类别分布大致平衡,但现实中常见长尾分布 + 客户端高度异构。在这种条件下,采样策略系统性偏向头部类别,少数关键类别被忽视。
-
核心矛盾: FAL 中天然存在两种查询模型(全局聚合模型 vs 本地模型),哪个更适合取决于全局不平衡程度和客户端异质性——但之前没有系统研究。
-
切入角度: 通过系统实验发现三个关键观察:(1) 不确定性采样下局部模型通常更优,除非全局严重不平衡且客户端同质;(2) 类别平衡采样与最终性能强相关;(3) 多样性采样下全局模型始终更优(更好的特征空间)。
-
核心 idea: FairFAL = 自适应模型选择(根据不平衡度和异质度)+ 全局特征原型伪标签(类别感知)+ 两阶段采样(不确定性候选池 + k-center 多样性精炼)。
方法详解¶
整体框架¶
每轮 FAL:联邦训练 → 自适应选择查询模型 → 原型引导伪标签 → 两阶段类别平衡采样 → 标注 → 更新。
关键设计¶
-
自适应模型选择 (Sec 5.1):
- 通过全局模型在类别平衡子集上的预测分布估计全局不平衡比 \(\gamma_k\)
- 通过全局/局部模型预测分布的归一化对称差 \(d_k\) 估计异质度
- 模型选择分数 \(s_k = 1 - \frac{1}{2}(d_k + \bar{\gamma})\),高分用全局模型,低分用局部模型
- 隐私保护:仅上传标量 \(\gamma_k\)
-
原型引导伪标签 (Sec 5.2):
- 用全局模型特征提取器计算每类原型(labeled 数据特征均值)
- 未标注样本按与原型的余弦相似度分配伪标签
- 全局特征比局部更具判别性,伪标签更可靠
- 得到类别级未标注池划分,为类别感知采样做基础
-
两阶段不确定性-多样性采样 (Sec 5.3):
- Stage 1: 每类选不确定性最高的 \(\kappa \cdot b_c^{(k)}\) 个样本作候选池(\(\kappa=4\))
- Stage 2: 在梯度嵌入空间中做类别级 k-center 采样,以已标注样本为锚点,最大化覆盖
- 兼顾信息量(不确定性)和代表性(多样性),避免近重复样本浪费标注预算
实验关键数据¶
主实验 — CIFAR-100, ρ=20(从 Figure 3 读取)¶
| 方法 | α=0.1 最终准确率 | α=100 最终准确率 |
|---|---|---|
| Random | ~55% | ~58% |
| KAFAL | ~58% | ~60% |
| LoGo | ~57% | ~59% |
| IFAL | ~57% | ~58% |
| FairFAL | ~60% | ~65% |
消融实验(CIFAR-10)¶
| 配置 | (α=0.1,ρ=20) | (α=100,ρ=20) |
|---|---|---|
| +自适应模型选择 | 59.33 | 63.65 |
| +类别采样(全局原型) | 59.95 | 64.02 |
| +两阶段采样(κ=4) | 60.44 | 64.57 |
医学影像(自然长尾)¶
| 数据集 | Random | KAFAL | LoGo | IFAL | FairFAL |
|---|---|---|---|---|---|
| OctMNIST | 68.30 | 70.40 | 70.00 | 68.40 | 72.80 |
| DermaMNIST | 72.32 | 73.27 | 73.62 | 72.97 | 73.77 |
关键发现¶
- 类别平衡采样是核心: 能采到更多少数类样本的模型,最终性能一定更好
- 全局模型仅在"高不平衡 + 低异质"时占优,其余情况局部模型更好
- 全局特征原型比局部原型伪标签更准确(更好的特征空间)
- 任务越难(FMNIST→CIFAR-100),FairFAL 相对优势越大
- α=100(同质客户端)时基线方法退化严重,因为缺乏隐式多样性
亮点与洞察¶
- 系统性实证分析: 在提方法前先用严格统计检验(Wilcoxon、HL 估计)揭示全局/局部模型的适用条件——实证驱动的方法设计
- 隐私保护设计: 仅上传标量不平衡系数,不泄露任何原始数据或分布信息
- 三组件协同: 模型选择、类别感知、多样性精炼每步都有清晰的消融验证
局限性 / 可改进方向¶
- 实验仅 10 客户端,更大规模联邦(100+ 客户端)效果待验证
- 原型伪标签质量在极端长尾下可能退化(少数类仅有 1-2 个样本)
- 固定阈值 δ=0.75 可能不够灵活,自适应阈值可能更好
相关工作与启发¶
- vs LoGo: LoGo 先局部聚类再全局不确定性打分,不考虑类别平衡;FairFAL 显式类别感知
- vs BADGE: BADGE 是集中式两阶段方法,FairFAL 将其扩展到联邦 + 类别公平场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 实证观察驱动的自适应设计新颖实用
- 实验充分度: ⭐⭐⭐⭐ 5 数据集 + 11 基线 + 详细消融
- 写作质量: ⭐⭐⭐⭐ 观察-方法逻辑链清晰
- 价值: ⭐⭐⭐⭐ 对联邦长尾学习有直接实用价值