Computation and Communication Efficient Federated Unlearning via On-server Gradient Conflict¶
日期: 2026-03-14
arXiv: 2603.13795
代码: 有
领域: AI安全 / 联邦遗忘
关键词: federated unlearning, gradient matching, causal disentanglement, right to be forgotten, privacy
一句话总结¶
提出 FOUL(Federated On-server UnLearning),训练时用因果解纠缠将模型分为域不变/域特异子网络(L2U),遗忘时仅在服务器端对域特异子网络做梯度冲突匹配,实现高效无需客户端数据的联邦客户级遗忘。
研究背景与动机¶
- 领域现状: GDPR 等法规要求 FL 系统支持"被遗忘权"。联邦遗忘(FUL)需从全局模型中移除特定客户端数据影响,重训方法计算代价极高。
- 现有痛点: (a) 客户级遗忘时忘记客户端无保留数据,无法构建完整遗忘目标 \(\mathcal{L}_{\text{unlearn}} = \mathcal{L}_{\text{retain}} - \mathcal{L}_{\text{forget}}\);(b) 近似方法需频繁识别受影响子网络;(c) 通信开销大——Retrain 每轮通信 42.73 MB。
- 核心 idea: 训练时就为遗忘做准备——将模型解纠缠为因果(域不变)和非因果(域特异)部分;遗忘时只需在服务器端对非因果子网络做梯度方向匹配,通信量降至 16.02 MB。
方法详解¶
阶段一:Learning-to-Unlearn(L2U)¶
将特征提取器分为因果编码器 \(\theta_K\)(域不变)和非因果编码器 \(\theta_V\)(域特异):
- 因果编码器: 用原型网络损失训练,使类内特征紧凑 → 捕捉跨域不变特征
- 非因果编码器: 用 hinge loss 最大化类内方差 → 捕捉域特异信息
- 重建损失: 确保 \(\theta_K + \theta_V\) 联合表达充分,分类损失确保因果特征足以预测标签
阶段二:On-server Gradient Matching¶
仅对 \(\theta_V\) 做遗忘。服务器收集各客户端梯度,寻找聚合梯度 \(g_{\text{FOUL}}\) 使其与保留客户端梯度余弦相似度最大、与忘记客户端梯度最小。用可学习权重 \(\Gamma\) 参数化,从 d 维降到 U 维缩小优化空间。梯度冲突会导致对忘记集的负迁移效应,实现主动遗忘。
新指标 Time-to-Forget(T2F)¶
衡量每轮忘记集精度的平均下降速度,比最终精度更能反映实际遗忘效率。
实验关键数据¶
设置: PACS / VLCS / OfficeHome / TerraIncognita 四个域泛化数据集,ResNet-18(前三者)/ ResNet-50(TerraIncognita),20 个客户端 IID 分布(每域 5 个),对比 9 种基线方法,单卡 A100。
主实验(PACS,与 Retrain 基线的差值)¶
| 方法 | FA ↓ | RA ↑ | TA ↑ | MIA ↓ |
|---|---|---|---|---|
| Retrain | 70.51 | 82.84 | 77.45 | 50.02 |
| FATS | 74.45 (+3.94) | 80.91 (-1.93) | 75.98 (-1.47) | 55.72 (+5.70) |
| FedRecovery | 76.48 (+5.97) | 76.97 (-5.87) | 74.81 (-2.64) | 75.24 (+25.22) |
| FUSED | 75.94 (+5.43) | 79.34 (-3.50) | 76.86 (-0.59) | 58.72 (+8.70) |
| FOUL (L2U) | 69.53 (-0.98) | 93.11 (+14.55) | 77.14 (-0.31) | 53.82 (+3.80) |
| FOUL (L2U+梯度匹配) | 70.97 (+0.46) | 92.33 (+14.49) | 76.43 (-1.02) | 51.93 (+1.91) |
TerraIncognita 结果¶
| 方法 | FA ↓ | RA ↑ | TA ↑ |
|---|---|---|---|
| Retrain | 30.64 | 42.41 | 38.94 |
| FOUL (L2U) | 27.97 (-2.67) | 43.81 (+1.40) | 38.16 (-0.78) |
| FOUL (L2U+梯度匹配) | 29.92 (-0.72) | 42.13 (-0.28) | 39.16 (+0.22) |
效率对比¶
| 方法 | 参数量 (M) | 通信 (MB/轮) | 计算 (FLOPs) |
|---|---|---|---|
| Retrain | 11.3 | 42.73 | 5.81e16 |
| FUSED | 11.3 | 0.98 | 2.81e16 |
| FOUL | 11.3 | 16.02 | 2.35e16 |
T2F 速度¶
- FOUL 在 <50 轮达到最优遗忘,T2F > 0.32/轮
- Retrain 需 75 轮,T2F 仅 0.13/轮 — FOUL 遗忘速度约 2.5 倍
- 朴素重训(无论是否重置参数)由于使用标准 FedAvg 聚合,无法显式移除忘记客户端知识
亮点与洞察¶
- L2U 思想有前瞻性: 训练时就把模型准备好,遗忘请求来时只需操作非因果子网络,RA 反而从 82.84 提升至 93.11(+14.55),说明解纠缠本身提升了保留集表现
- 因果视角的理论基础: 因果特征对所有域有用无需遗忘,非因果特征含域特异信息——梯度冲突产生负迁移,主动遗忘而非被动遗忘
- 计算量最低: 2.35e16 FLOPs,比 Retrain 的 5.81e16 降低 59.6%
- 域泛化数据集做 FUL 评估: 比传统 IID 分割更能量化遗忘效果——每个域对应一个客户端,遗忘/保留边界清晰可测
- MIA 接近理想值: FOUL (L2U+梯度匹配) 在 PACS 上 MIA=51.93,最接近 Retrain 的 50.02,说明遗忘后模型几乎无法区分成员/非成员
局限性¶
- L2U 增加训练复杂度(双编码器 + 解码器 + 原型网络),训练阶段开销高于 vanilla FedAvg
- 因果/非因果的完美分离在复杂场景中可能难以实现
- 仅在域泛化数据集上验证,真实 FL 异构部署场景未测试
评分¶
- 新颖性: ⭐⭐⭐⭐ 因果解纠缠 + 梯度冲突匹配的组合是 FUL 方向新思路
- 实验充分度: ⭐⭐⭐⭐ 4 数据集、9 基线、新指标 T2F、完整消融
- 写作质量: ⭐⭐⭐⭐ 理论推导完整,Theorem 1 给出梯度匹配的优化目标
- 价值: ⭐⭐⭐⭐ 同时解决 FUL 的效率和效果问题