跳转至

OFMU: Optimization-Driven Framework for Machine Unlearning

会议: ICLR 2026
arXiv: 2509.22483
代码: 无
领域: AI安全 / 机器遗忘
关键词: 机器遗忘, 双层优化, 梯度去相关, 遗忘-保留权衡, LLM隐私

一句话总结

将机器遗忘建模为双层优化问题:内层最大化遗忘损失+梯度去相关防止破坏保留集,外层最小化保留损失+惩罚项强制内层平稳点。在TOFU基准上同时实现高遗忘质量和高模型效用保留,平衡性超越现有GA/GradDiff/NPO/RMU方法。

研究背景与动机

  1. 领域现状:LLM需要按需遗忘特定知识(GDPR合规/版权/过时信息),但从头重训不切实际。现有方法分输入级(拒绝策略)、数据级(构造辅助数据)、模型级(修改参数)。
  2. 现有痛点
  3. 输入级方法脆弱,对抗prompt可绕过拒绝
  4. 模型级方法用静态权重平衡遗忘/保留目标,无法动态适应
  5. GradAscent/GradDiff在难遗忘样本上破坏性强——样本难度与效用损失强耦合
  6. 核心矛盾:遗忘梯度和保留梯度相关时,提升遗忘会破坏保留
  7. 核忊idea一句话:双层优化 + 梯度去相关 = 遗忘时不伤及保留

方法详解

整体框架

双层优化:内层做梯度上升最大化遗忘损失(同时去相关防止破坏保留),外层做梯度下降最小化保留损失+惩罚项强制内层收敛。

关键设计

  1. 双层优化建模:
  2. 内层目标:\(\Phi(\theta) = \mathcal{L}_f(\theta) - \beta \cdot \text{Sim}(\nabla\mathcal{L}_f, \nabla\mathcal{L}_r)\)
  3. 外层目标:\(F(\theta) = \mathcal{L}_r(\theta) + \rho\|\nabla\Phi(\theta)\|^2\)
  4. 梯度去相关项 \(\text{Sim}\) 用余弦相似度,确保遗忘梯度方向与保留梯度正交
  5. 惩罚项 \(\rho\|\nabla\Phi\|^2\) 确保内层达到平稳点

  6. 两循环算法:

  7. 内循环(T步梯度上升):\(\theta'^{(t+1)} = \theta'^{(t)} + \eta_{\text{in}}\nabla\Phi(\theta'^{(t)})\)
  8. 外循环(保留+惩罚):\(\theta^{(k+1)} = \theta^{(k)} - \eta_{\text{out}}(\nabla\mathcal{L}_r + 2\rho\nabla^2\Phi\cdot\nabla\Phi)\)
  9. 理论收敛保证:凸场景 \(O(1/K)+O(K/T^2)\),非凸 \(O(1/K)+O(1/T)+O(\sigma^2)\)

损失函数 / 训练策略

  • 内循环T=5~10步,不需要完全收敛
  • 惩罚参数 \(\rho_k\) 递增进度,通过Hessian-向量积计算外层梯度

实验关键数据

主实验:TOFU基准(LLaMA-2-7B)

方法 FQ(forget01) MU FTR 说明
Retrain 1.00 0.63 0.68 理想上界
GradAscent 1.88e-4 0.55 0.36 遗忘弱+保留差
GradDiff 3.02e-3 0.57 0.41 略好
NPO 0.40 0.58 0.65 中等
RMU 0.40 0.62 0.64 中等
OFMU 0.42 0.63 0.68 接近Retrain

消融实验

配置 关键发现
去掉梯度去相关 遗忘效果提升但保留严重受损
去掉双层结构(用线性加权) \(\lambda\) 权衡不稳定,难细调
Full OFMU 最佳平衡

关键发现

  • OFMU接近Retrain上界:MU=0.63等于Retrain,FTR=0.68等于Retrain
  • GA/GradDiff在forget05/10上崩溃:FQ降到e-119~e-239,说明在大规模遗忘时完全失效
  • 梯度去相关解耦难遗忘样本的耦合问题

亮点与洞察

  • 双层优化视角重新定义遗忘问题:不是简单的多目标线性加权,而是将遗忘作为满足梯度平稳性约束的外层优化——这个建模更符合遗忘的本质
  • 梯度去相关的精妙设计:通过余弦相似度惩罚确保遗忘梯度和保留梯度正交,从几何层面消除冲突——与NSPO的零空间投影思路相似但应用于遗忘而非安全对齐

局限性 / 可改进方向

  • Hessian-向量积计算开销较大
  • 未测试>70B模型和多模态场景
  • 未探索持续遗忘场景(多次遗忘请求)

相关工作与启发

  • vs GradAscent/GradDiff:简单梯度上升在大规模遗忘时崩溃,OFMU通过双层结构保持稳定
  • vs NPO/RMU:这些方法用启发式权重平衡,OFMU用严格的双层优化框架,理论保证更强
  • vs NSPO(同会议):两者都用梯度正交/去相关策略,但NSPO用于安全对齐,OFMU用于机器遗忘

评分

  • 新颖性: ⭐⭐⭐⭐ 双层优化+梯度去相关的组合新颖
  • 实验充分度: ⭐⭐⭐⭐ TOFU+CIFAR多场景,但缺少大规模LLM实验
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨
  • 价值: ⭐⭐⭐⭐ 为机器遗忘提供了理论严格的优化框架