Computation and Communication Efficient Federated Unlearning via On-server Gradient Conflict¶

日期: 2026-03-14
arXiv: 2603.13795
代码: 有
领域: AI安全 / 联邦遗忘
关键词: federated unlearning, gradient matching, causal disentanglement, right to be forgotten, privacy

一句话总结¶

提出 FOUL（Federated On-server UnLearning），训练时用因果解纠缠将模型分为域不变/域特异子网络（L2U），遗忘时仅在服务器端对域特异子网络做梯度冲突匹配，实现高效无需客户端数据的联邦客户级遗忘。

研究背景与动机¶

领域现状: GDPR 等法规要求 FL 系统支持"被遗忘权"。联邦遗忘（FUL）需从全局模型中移除特定客户端数据影响，重训方法计算代价极高。
现有痛点: (a) 客户级遗忘时忘记客户端无保留数据，无法构建完整遗忘目标 \(\mathcal{L}_{\text{unlearn}} = \mathcal{L}_{\text{retain}} - \mathcal{L}_{\text{forget}}\)；(b) 近似方法需频繁识别受影响子网络；(c) 通信开销大——Retrain 每轮通信 42.73 MB。
核心 idea: 训练时就为遗忘做准备——将模型解纠缠为因果（域不变）和非因果（域特异）部分；遗忘时只需在服务器端对非因果子网络做梯度方向匹配，通信量降至 16.02 MB。

方法详解¶

阶段一：Learning-to-Unlearn（L2U）¶

将特征提取器分为因果编码器 \(\theta_K\)（域不变）和非因果编码器 \(\theta_V\)（域特异）：

因果编码器: 用原型网络损失训练，使类内特征紧凑 → 捕捉跨域不变特征
非因果编码器: 用 hinge loss 最大化类内方差 → 捕捉域特异信息
重建损失: 确保 \(\theta_K + \theta_V\) 联合表达充分，分类损失确保因果特征足以预测标签

阶段二：On-server Gradient Matching¶

仅对 \(\theta_V\) 做遗忘。服务器收集各客户端梯度，寻找聚合梯度 \(g_{\text{FOUL}}\) 使其与保留客户端梯度余弦相似度最大、与忘记客户端梯度最小。用可学习权重 \(\Gamma\) 参数化，从 d 维降到 U 维缩小优化空间。梯度冲突会导致对忘记集的负迁移效应，实现主动遗忘。

新指标 Time-to-Forget（T2F）¶

衡量每轮忘记集精度的平均下降速度，比最终精度更能反映实际遗忘效率。

实验关键数据¶

设置: PACS / VLCS / OfficeHome / TerraIncognita 四个域泛化数据集，ResNet-18（前三者）/ ResNet-50（TerraIncognita），20 个客户端 IID 分布（每域 5 个），对比 9 种基线方法，单卡 A100。

主实验（PACS，与 Retrain 基线的差值）¶

方法	FA ↓	RA ↑	TA ↑	MIA ↓
Retrain	70.51	82.84	77.45	50.02
FATS	74.45 (+3.94)	80.91 (-1.93)	75.98 (-1.47)	55.72 (+5.70)
FedRecovery	76.48 (+5.97)	76.97 (-5.87)	74.81 (-2.64)	75.24 (+25.22)
FUSED	75.94 (+5.43)	79.34 (-3.50)	76.86 (-0.59)	58.72 (+8.70)
FOUL (L2U)	69.53 (-0.98)	93.11 (+14.55)	77.14 (-0.31)	53.82 (+3.80)
FOUL (L2U+梯度匹配)	70.97 (+0.46)	92.33 (+14.49)	76.43 (-1.02)	51.93 (+1.91)

TerraIncognita 结果¶

方法	FA ↓	RA ↑	TA ↑
Retrain	30.64	42.41	38.94
FOUL (L2U)	27.97 (-2.67)	43.81 (+1.40)	38.16 (-0.78)
FOUL (L2U+梯度匹配)	29.92 (-0.72)	42.13 (-0.28)	39.16 (+0.22)

效率对比¶

方法	参数量 (M)	通信 (MB/轮)	计算 (FLOPs)
Retrain	11.3	42.73	5.81e16
FUSED	11.3	0.98	2.81e16
FOUL	11.3	16.02	2.35e16

T2F 速度¶

FOUL 在 <50 轮达到最优遗忘，T2F > 0.32/轮
Retrain 需 75 轮，T2F 仅 0.13/轮 — FOUL 遗忘速度约 2.5 倍
朴素重训（无论是否重置参数）由于使用标准 FedAvg 聚合，无法显式移除忘记客户端知识

亮点与洞察¶

L2U 思想有前瞻性: 训练时就把模型准备好，遗忘请求来时只需操作非因果子网络，RA 反而从 82.84 提升至 93.11（+14.55），说明解纠缠本身提升了保留集表现
因果视角的理论基础: 因果特征对所有域有用无需遗忘，非因果特征含域特异信息——梯度冲突产生负迁移，主动遗忘而非被动遗忘
计算量最低: 2.35e16 FLOPs，比 Retrain 的 5.81e16 降低 59.6%
域泛化数据集做 FUL 评估: 比传统 IID 分割更能量化遗忘效果——每个域对应一个客户端，遗忘/保留边界清晰可测
MIA 接近理想值: FOUL (L2U+梯度匹配) 在 PACS 上 MIA=51.93，最接近 Retrain 的 50.02，说明遗忘后模型几乎无法区分成员/非成员

局限性¶

L2U 增加训练复杂度（双编码器 + 解码器 + 原型网络），训练阶段开销高于 vanilla FedAvg
因果/非因果的完美分离在复杂场景中可能难以实现
仅在域泛化数据集上验证，真实 FL 异构部署场景未测试

评分¶

新颖性: ⭐⭐⭐⭐ 因果解纠缠 + 梯度冲突匹配的组合是 FUL 方向新思路
实验充分度: ⭐⭐⭐⭐ 4 数据集、9 基线、新指标 T2F、完整消融
写作质量: ⭐⭐⭐⭐ 理论推导完整，Theorem 1 给出梯度匹配的优化目标
价值: ⭐⭐⭐⭐ 同时解决 FUL 的效率和效果问题