跳转至

FairFAL: Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

日期: 2026-03-11
arXiv: 2603.10341
代码: github.com/chenchenzong/FairFAL
领域: AI安全 / 联邦学习
关键词: federated learning, active learning, class imbalance, non-IID, prototype

一句话总结

系统性研究了联邦主动学习中全局/局部模型作为查询选择器的优劣,发现类别平衡采样(尤其是少数类采集)是性能关键,提出 FairFAL 框架通过自适应模型选择 + 原型引导伪标签 + 两阶段不确定性-多样性采样实现类别公平的联邦主动学习。

研究背景与动机

  1. 领域现状: 联邦主动学习 (FAL) 结合隐私保护的联邦学习与标注高效的主动学习,在标注预算受限的分布式场景(医疗影像、自动驾驶)中有重要价值。

  2. 现有痛点: 现有 FAL 方法(LoGo、KAFAL、IFAL)假设全局类别分布大致平衡,但现实中常见长尾分布 + 客户端高度异构。在这种条件下,采样策略系统性偏向头部类别,少数关键类别被忽视。

  3. 核心矛盾: FAL 中天然存在两种查询模型(全局聚合模型 vs 本地模型),哪个更适合取决于全局不平衡程度和客户端异质性——但之前没有系统研究。

  4. 切入角度: 通过系统实验发现三个关键观察:(1) 不确定性采样下局部模型通常更优,除非全局严重不平衡且客户端同质;(2) 类别平衡采样与最终性能强相关;(3) 多样性采样下全局模型始终更优(更好的特征空间)。

  5. 核心 idea: FairFAL = 自适应模型选择(根据不平衡度和异质度)+ 全局特征原型伪标签(类别感知)+ 两阶段采样(不确定性候选池 + k-center 多样性精炼)。

方法详解

整体框架

每轮 FAL:联邦训练 → 自适应选择查询模型 → 原型引导伪标签 → 两阶段类别平衡采样 → 标注 → 更新。

关键设计

  1. 自适应模型选择 (Sec 5.1):

    • 通过全局模型在类别平衡子集上的预测分布估计全局不平衡比 \(\gamma_k\)
    • 通过全局/局部模型预测分布的归一化对称差 \(d_k\) 估计异质度
    • 模型选择分数 \(s_k = 1 - \frac{1}{2}(d_k + \bar{\gamma})\),高分用全局模型,低分用局部模型
    • 隐私保护:仅上传标量 \(\gamma_k\)
  2. 原型引导伪标签 (Sec 5.2):

    • 用全局模型特征提取器计算每类原型(labeled 数据特征均值)
    • 未标注样本按与原型的余弦相似度分配伪标签
    • 全局特征比局部更具判别性,伪标签更可靠
    • 得到类别级未标注池划分,为类别感知采样做基础
  3. 两阶段不确定性-多样性采样 (Sec 5.3):

    • Stage 1: 每类选不确定性最高的 \(\kappa \cdot b_c^{(k)}\) 个样本作候选池(\(\kappa=4\)
    • Stage 2: 在梯度嵌入空间中做类别级 k-center 采样,以已标注样本为锚点,最大化覆盖
    • 兼顾信息量(不确定性)和代表性(多样性),避免近重复样本浪费标注预算

实验关键数据

主实验 — CIFAR-100, ρ=20(从 Figure 3 读取)

方法 α=0.1 最终准确率 α=100 最终准确率
Random ~55% ~58%
KAFAL ~58% ~60%
LoGo ~57% ~59%
IFAL ~57% ~58%
FairFAL ~60% ~65%

消融实验(CIFAR-10)

配置 (α=0.1,ρ=20) (α=100,ρ=20)
+自适应模型选择 59.33 63.65
+类别采样(全局原型) 59.95 64.02
+两阶段采样(κ=4) 60.44 64.57

医学影像(自然长尾)

数据集 Random KAFAL LoGo IFAL FairFAL
OctMNIST 68.30 70.40 70.00 68.40 72.80
DermaMNIST 72.32 73.27 73.62 72.97 73.77

关键发现

  • 类别平衡采样是核心: 能采到更多少数类样本的模型,最终性能一定更好
  • 全局模型仅在"高不平衡 + 低异质"时占优,其余情况局部模型更好
  • 全局特征原型比局部原型伪标签更准确(更好的特征空间)
  • 任务越难(FMNIST→CIFAR-100),FairFAL 相对优势越大
  • α=100(同质客户端)时基线方法退化严重,因为缺乏隐式多样性

亮点与洞察

  • 系统性实证分析: 在提方法前先用严格统计检验(Wilcoxon、HL 估计)揭示全局/局部模型的适用条件——实证驱动的方法设计
  • 隐私保护设计: 仅上传标量不平衡系数,不泄露任何原始数据或分布信息
  • 三组件协同: 模型选择、类别感知、多样性精炼每步都有清晰的消融验证

局限性 / 可改进方向

  • 实验仅 10 客户端,更大规模联邦(100+ 客户端)效果待验证
  • 原型伪标签质量在极端长尾下可能退化(少数类仅有 1-2 个样本)
  • 固定阈值 δ=0.75 可能不够灵活,自适应阈值可能更好

相关工作与启发

  • vs LoGo: LoGo 先局部聚类再全局不确定性打分,不考虑类别平衡;FairFAL 显式类别感知
  • vs BADGE: BADGE 是集中式两阶段方法,FairFAL 将其扩展到联邦 + 类别公平场景

评分

  • 新颖性: ⭐⭐⭐⭐ 实证观察驱动的自适应设计新颖实用
  • 实验充分度: ⭐⭐⭐⭐ 5 数据集 + 11 基线 + 详细消融
  • 写作质量: ⭐⭐⭐⭐ 观察-方法逻辑链清晰
  • 价值: ⭐⭐⭐⭐ 对联邦长尾学习有直接实用价值