跳转至

Computation and Communication Efficient Federated Unlearning via On-server Gradient Conflict

日期: 2026-03-14
arXiv: 2603.13795
代码: 有
领域: AI安全 / 联邦遗忘
关键词: federated unlearning, gradient matching, causal disentanglement, right to be forgotten, privacy

一句话总结

提出 FOUL(Federated On-server UnLearning),训练时用因果解纠缠将模型分为域不变/域特异子网络(L2U),遗忘时仅在服务器端对域特异子网络做梯度冲突匹配,实现高效无需客户端数据的联邦客户级遗忘。

研究背景与动机

  1. 领域现状: GDPR 等法规要求 FL 系统支持"被遗忘权"。联邦遗忘(FUL)需从全局模型中移除特定客户端数据影响,重训方法计算代价极高。
  2. 现有痛点: (a) 客户级遗忘时忘记客户端无保留数据,无法构建完整遗忘目标 \(\mathcal{L}_{\text{unlearn}} = \mathcal{L}_{\text{retain}} - \mathcal{L}_{\text{forget}}\);(b) 近似方法需频繁识别受影响子网络;(c) 通信开销大——Retrain 每轮通信 42.73 MB。
  3. 核心 idea: 训练时就为遗忘做准备——将模型解纠缠为因果(域不变)和非因果(域特异)部分;遗忘时只需在服务器端对非因果子网络做梯度方向匹配,通信量降至 16.02 MB。

方法详解

阶段一:Learning-to-Unlearn(L2U)

将特征提取器分为因果编码器 \(\theta_K\)(域不变)和非因果编码器 \(\theta_V\)(域特异):

  • 因果编码器: 用原型网络损失训练,使类内特征紧凑 → 捕捉跨域不变特征
  • 非因果编码器: 用 hinge loss 最大化类内方差 → 捕捉域特异信息
  • 重建损失: 确保 \(\theta_K + \theta_V\) 联合表达充分,分类损失确保因果特征足以预测标签

阶段二:On-server Gradient Matching

仅对 \(\theta_V\) 做遗忘。服务器收集各客户端梯度,寻找聚合梯度 \(g_{\text{FOUL}}\) 使其与保留客户端梯度余弦相似度最大、与忘记客户端梯度最小。用可学习权重 \(\Gamma\) 参数化,从 d 维降到 U 维缩小优化空间。梯度冲突会导致对忘记集的负迁移效应,实现主动遗忘。

新指标 Time-to-Forget(T2F)

衡量每轮忘记集精度的平均下降速度,比最终精度更能反映实际遗忘效率。

实验关键数据

设置: PACS / VLCS / OfficeHome / TerraIncognita 四个域泛化数据集,ResNet-18(前三者)/ ResNet-50(TerraIncognita),20 个客户端 IID 分布(每域 5 个),对比 9 种基线方法,单卡 A100。

主实验(PACS,与 Retrain 基线的差值)

方法 FA ↓ RA ↑ TA ↑ MIA ↓
Retrain 70.51 82.84 77.45 50.02
FATS 74.45 (+3.94) 80.91 (-1.93) 75.98 (-1.47) 55.72 (+5.70)
FedRecovery 76.48 (+5.97) 76.97 (-5.87) 74.81 (-2.64) 75.24 (+25.22)
FUSED 75.94 (+5.43) 79.34 (-3.50) 76.86 (-0.59) 58.72 (+8.70)
FOUL (L2U) 69.53 (-0.98) 93.11 (+14.55) 77.14 (-0.31) 53.82 (+3.80)
FOUL (L2U+梯度匹配) 70.97 (+0.46) 92.33 (+14.49) 76.43 (-1.02) 51.93 (+1.91)

TerraIncognita 结果

方法 FA ↓ RA ↑ TA ↑
Retrain 30.64 42.41 38.94
FOUL (L2U) 27.97 (-2.67) 43.81 (+1.40) 38.16 (-0.78)
FOUL (L2U+梯度匹配) 29.92 (-0.72) 42.13 (-0.28) 39.16 (+0.22)

效率对比

方法 参数量 (M) 通信 (MB/轮) 计算 (FLOPs)
Retrain 11.3 42.73 5.81e16
FUSED 11.3 0.98 2.81e16
FOUL 11.3 16.02 2.35e16

T2F 速度

  • FOUL 在 <50 轮达到最优遗忘,T2F > 0.32/轮
  • Retrain 需 75 轮,T2F 仅 0.13/轮 — FOUL 遗忘速度约 2.5 倍
  • 朴素重训(无论是否重置参数)由于使用标准 FedAvg 聚合,无法显式移除忘记客户端知识

亮点与洞察

  • L2U 思想有前瞻性: 训练时就把模型准备好,遗忘请求来时只需操作非因果子网络,RA 反而从 82.84 提升至 93.11(+14.55),说明解纠缠本身提升了保留集表现
  • 因果视角的理论基础: 因果特征对所有域有用无需遗忘,非因果特征含域特异信息——梯度冲突产生负迁移,主动遗忘而非被动遗忘
  • 计算量最低: 2.35e16 FLOPs,比 Retrain 的 5.81e16 降低 59.6%
  • 域泛化数据集做 FUL 评估: 比传统 IID 分割更能量化遗忘效果——每个域对应一个客户端,遗忘/保留边界清晰可测
  • MIA 接近理想值: FOUL (L2U+梯度匹配) 在 PACS 上 MIA=51.93,最接近 Retrain 的 50.02,说明遗忘后模型几乎无法区分成员/非成员

局限性

  • L2U 增加训练复杂度(双编码器 + 解码器 + 原型网络),训练阶段开销高于 vanilla FedAvg
  • 因果/非因果的完美分离在复杂场景中可能难以实现
  • 仅在域泛化数据集上验证,真实 FL 异构部署场景未测试

评分

  • 新颖性: ⭐⭐⭐⭐ 因果解纠缠 + 梯度冲突匹配的组合是 FUL 方向新思路
  • 实验充分度: ⭐⭐⭐⭐ 4 数据集、9 基线、新指标 T2F、完整消融
  • 写作质量: ⭐⭐⭐⭐ 理论推导完整,Theorem 1 给出梯度匹配的优化目标
  • 价值: ⭐⭐⭐⭐ 同时解决 FUL 的效率和效果问题