OFMU: Optimization-Driven Framework for Machine Unlearning¶
会议: ICLR 2026
arXiv: 2509.22483
代码: 无
领域: AI安全 / 机器遗忘
关键词: 机器遗忘, 双层优化, 梯度去相关, 遗忘-保留权衡, LLM隐私
一句话总结¶
将机器遗忘建模为双层优化问题:内层最大化遗忘损失+梯度去相关防止破坏保留集,外层最小化保留损失+惩罚项强制内层平稳点。在TOFU基准上同时实现高遗忘质量和高模型效用保留,平衡性超越现有GA/GradDiff/NPO/RMU方法。
研究背景与动机¶
- 领域现状:LLM需要按需遗忘特定知识(GDPR合规/版权/过时信息),但从头重训不切实际。现有方法分输入级(拒绝策略)、数据级(构造辅助数据)、模型级(修改参数)。
- 现有痛点:
- 输入级方法脆弱,对抗prompt可绕过拒绝
- 模型级方法用静态权重平衡遗忘/保留目标,无法动态适应
- GradAscent/GradDiff在难遗忘样本上破坏性强——样本难度与效用损失强耦合
- 核心矛盾:遗忘梯度和保留梯度相关时,提升遗忘会破坏保留
- 核忊idea一句话:双层优化 + 梯度去相关 = 遗忘时不伤及保留
方法详解¶
整体框架¶
双层优化:内层做梯度上升最大化遗忘损失(同时去相关防止破坏保留),外层做梯度下降最小化保留损失+惩罚项强制内层收敛。
关键设计¶
- 双层优化建模:
- 内层目标:\(\Phi(\theta) = \mathcal{L}_f(\theta) - \beta \cdot \text{Sim}(\nabla\mathcal{L}_f, \nabla\mathcal{L}_r)\)
- 外层目标:\(F(\theta) = \mathcal{L}_r(\theta) + \rho\|\nabla\Phi(\theta)\|^2\)
- 梯度去相关项 \(\text{Sim}\) 用余弦相似度,确保遗忘梯度方向与保留梯度正交
-
惩罚项 \(\rho\|\nabla\Phi\|^2\) 确保内层达到平稳点
-
两循环算法:
- 内循环(T步梯度上升):\(\theta'^{(t+1)} = \theta'^{(t)} + \eta_{\text{in}}\nabla\Phi(\theta'^{(t)})\)
- 外循环(保留+惩罚):\(\theta^{(k+1)} = \theta^{(k)} - \eta_{\text{out}}(\nabla\mathcal{L}_r + 2\rho\nabla^2\Phi\cdot\nabla\Phi)\)
- 理论收敛保证:凸场景 \(O(1/K)+O(K/T^2)\),非凸 \(O(1/K)+O(1/T)+O(\sigma^2)\)
损失函数 / 训练策略¶
- 内循环T=5~10步,不需要完全收敛
- 惩罚参数 \(\rho_k\) 递增进度,通过Hessian-向量积计算外层梯度
实验关键数据¶
主实验:TOFU基准(LLaMA-2-7B)¶
| 方法 | FQ(forget01) | MU | FTR | 说明 |
|---|---|---|---|---|
| Retrain | 1.00 | 0.63 | 0.68 | 理想上界 |
| GradAscent | 1.88e-4 | 0.55 | 0.36 | 遗忘弱+保留差 |
| GradDiff | 3.02e-3 | 0.57 | 0.41 | 略好 |
| NPO | 0.40 | 0.58 | 0.65 | 中等 |
| RMU | 0.40 | 0.62 | 0.64 | 中等 |
| OFMU | 0.42 | 0.63 | 0.68 | 接近Retrain |
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 去掉梯度去相关 | 遗忘效果提升但保留严重受损 |
| 去掉双层结构(用线性加权) | \(\lambda\) 权衡不稳定,难细调 |
| Full OFMU | 最佳平衡 |
关键发现¶
- OFMU接近Retrain上界:MU=0.63等于Retrain,FTR=0.68等于Retrain
- GA/GradDiff在forget05/10上崩溃:FQ降到e-119~e-239,说明在大规模遗忘时完全失效
- 梯度去相关解耦难遗忘样本的耦合问题
亮点与洞察¶
- 双层优化视角重新定义遗忘问题:不是简单的多目标线性加权,而是将遗忘作为满足梯度平稳性约束的外层优化——这个建模更符合遗忘的本质
- 梯度去相关的精妙设计:通过余弦相似度惩罚确保遗忘梯度和保留梯度正交,从几何层面消除冲突——与NSPO的零空间投影思路相似但应用于遗忘而非安全对齐
局限性 / 可改进方向¶
- Hessian-向量积计算开销较大
- 未测试>70B模型和多模态场景
- 未探索持续遗忘场景(多次遗忘请求)
相关工作与启发¶
- vs GradAscent/GradDiff:简单梯度上升在大规模遗忘时崩溃,OFMU通过双层结构保持稳定
- vs NPO/RMU:这些方法用启发式权重平衡,OFMU用严格的双层优化框架,理论保证更强
- vs NSPO(同会议):两者都用梯度正交/去相关策略,但NSPO用于安全对齐,OFMU用于机器遗忘
评分¶
- 新颖性: ⭐⭐⭐⭐ 双层优化+梯度去相关的组合新颖
- 实验充分度: ⭐⭐⭐⭐ TOFU+CIFAR多场景,但缺少大规模LLM实验
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨
- 价值: ⭐⭐⭐⭐ 为机器遗忘提供了理论严格的优化框架