OFMU: Optimization-Driven Framework for Machine Unlearning¶

会议: ICLR 2026
arXiv: 2509.22483
代码: 无
领域: AI安全 / 机器遗忘
关键词: 机器遗忘, 双层优化, 梯度去相关, 遗忘-保留权衡, LLM隐私

一句话总结¶

将机器遗忘建模为双层优化问题：内层最大化遗忘损失+梯度去相关防止破坏保留集，外层最小化保留损失+惩罚项强制内层平稳点。在TOFU基准上同时实现高遗忘质量和高模型效用保留，平衡性超越现有GA/GradDiff/NPO/RMU方法。

领域现状：LLM需要按需遗忘特定知识（GDPR合规/版权/过时信息），但从头重训不切实际。现有方法分输入级（拒绝策略）、数据级（构造辅助数据）、模型级（修改参数）。
现有痛点：
输入级方法脆弱，对抗prompt可绕过拒绝
模型级方法用静态权重平衡遗忘/保留目标，无法动态适应
GradAscent/GradDiff在难遗忘样本上破坏性强——样本难度与效用损失强耦合
核心矛盾：遗忘梯度和保留梯度相关时，提升遗忘会破坏保留
核忊idea一句话：双层优化 + 梯度去相关 = 遗忘时不伤及保留

双层优化：内层做梯度上升最大化遗忘损失(同时去相关防止破坏保留)，外层做梯度下降最小化保留损失+惩罚项强制内层收敛。

双层优化建模:
内层目标：\(\Phi(\theta) = \mathcal{L}_f(\theta) - \beta \cdot \text{Sim}(\nabla\mathcal{L}_f, \nabla\mathcal{L}_r)\)
外层目标：\(F(\theta) = \mathcal{L}_r(\theta) + \rho\|\nabla\Phi(\theta)\|^2\)
梯度去相关项 \(\text{Sim}\) 用余弦相似度，确保遗忘梯度方向与保留梯度正交
惩罚项 \(\rho\|\nabla\Phi\|^2\) 确保内层达到平稳点
两循环算法:
内循环(T步梯度上升)：\(\theta'^{(t+1)} = \theta'^{(t)} + \eta_{\text{in}}\nabla\Phi(\theta'^{(t)})\)
外循环(保留+惩罚)：\(\theta^{(k+1)} = \theta^{(k)} - \eta_{\text{out}}(\nabla\mathcal{L}_r + 2\rho\nabla^2\Phi\cdot\nabla\Phi)\)
理论收敛保证：凸场景 \(O(1/K)+O(K/T^2)\)，非凸 \(O(1/K)+O(1/T)+O(\sigma^2)\)

方法	FQ(forget01)	MU	FTR	说明
Retrain	1.00	0.63	0.68	理想上界
GradAscent	1.88e-4	0.55	0.36	遗忘弱+保留差
GradDiff	3.02e-3	0.57	0.41	略好
NPO	0.40	0.58	0.65	中等
RMU	0.40	0.62	0.64	中等
OFMU	0.42	0.63	0.68	接近Retrain