Ascent Fails to Forget¶

会议: NeurIPS 2025
arXiv: 2509.26427
代码: 无
领域: 机器遗忘
关键词: machine unlearning, gradient ascent, statistical dependence, forget-retain sets, descent-ascent

一句话总结¶

挑战了机器遗忘领域的常见信念，证明梯度上升（gradient ascent）基于的无约束优化方法在遗忘/保留集之间存在统计依赖时会系统性失败——遗忘集指标的降低不可避免地损害整体测试性能，logistic 回归示例甚至展示了遗忘过程使模型比原始模型更远离 oracle 的灾难性情况。

研究背景与动机¶

领域现状：机器遗忘（machine unlearning）旨在从训练好的模型中移除特定训练样本的影响，应用场景包括数据隐私（GDPR）、有毒数据去除、版权保护等。从头重训是金标准但成本过高。
现有痛点：广泛使用的 Descent-Ascent (DA) 方法——在遗忘集上做梯度上升（忘记）+ 在保留集上做梯度下降（保持）——(1) 没有理论保证；(2) 对超参数极度敏感；(3) 缺乏明确的停止准则。近期 benchmark 表明这些方法高度不可靠。
核心矛盾：DA 方法隐含假设遗忘集和保留集可以被独立操纵，但实际上两者之间存在统计依赖——操纵一个必然影响另一个。
本文要解决什么？ 识别 DA 方法失败的根本原因——遗忘/保留集之间被忽视的统计依赖。
切入角度：从随机遗忘集（相关性依赖）和 logistic 回归（结构化依赖）两个层面，理论+实证地展示依赖关系如何导致 DA 失败。
核心 idea 一句话：遗忘集和保留集的统计依赖（即使只是简单相关性）足以让基于梯度上升的遗忘方法系统性失败，甚至产生比不遗忘更差的结果。

方法详解¶

整体框架¶

这是一篇分析性工作，不提出新方法，而是揭示 DA 遗忘方法的根本缺陷。

关键设计¶

随机遗忘集分析:
做什么：分析当遗忘集是从训练集中随机选取时 DA 的行为。
核心思路：oracle（在保留集上重训的模型）在遗忘集上的表现应与测试集相似。DA 通过降低遗忘集上的指标来"遗忘"，但因为遗忘集和测试集统计相关，这也不可避免地降低了测试集性能。
设计动机：随机遗忘集意味着遗忘/保留集共享相同的数据分布——相关性是固有的。
Logistic 回归的灾难性失败:
做什么：在凸优化（logistic 回归）这个最简单的设置下分析 DA。
核心思路：理论证明 DA 迭代会使模型逐步远离 oracle，甚至可能收敛到比原始模型更远离 oracle 的解——遗忘过程实际上是"反向"的。
设计动机：如果在凸问题上都失败，在非凸深度网络上更不可能成功。这提供了 DA 方法失败的最清晰的理论说明。
Toy example: 局部最小值陷阱:
做什么：展示统计依赖如何将模型困在劣质局部最小值中。
核心思路：构建一个例子，其中 DA 导致模型落入一个局部最小值，该最小值无法通过后续微调逃脱。遗忘过程不仅产生差的模型，还让模型陷入了结构性困境。
设计动机：说明问题不仅是"方向错误"，还可能是"不可恢复的"。

损失函数 / 训练策略¶

分析性工作。评估在 CIFAR-10/100、ResNet/ViT 等上的 DA 方法。

实验关键数据¶

理论结果¶

设置	DA 行为	说明
随机遗忘集	遗忘集指标下降 → 测试性能下降	因统计相关性不可避免
Logistic 回归	模型偏离 oracle → 比原始更差	凸设置下的灾难性失败
Toy example	陷入劣质局部最小值	微调无法恢复

实证验证（深度网络）¶

配置	Oracle 距离	测试性能
原始模型	基线	基线
DA 遗忘后	增加（更远离 oracle）	下降
重训（oracle）	0	保持

关键发现¶

DA 在随机遗忘集上必然损害测试性能：理论和实验一致证明。
在 logistic 回归上，DA 可以使模型比原始更远离 oracle：遗忘过程是"积极有害"的。
深度网络实验验证了理论预测：ResNet 和 ViT 在 CIFAR 上表现出相同的失败模式。
统计依赖的存在几乎是普遍的：除非遗忘集与保留集完全独立（几乎不可能在真实数据中实现），DA 都有失败风险。

亮点与洞察¶

从统计依赖角度解释 DA 失败是根本性洞察：之前文献归咎于超参数敏感性或非凸性，本文指出即使在凸+最优超参时也会失败——本质原因是数据依赖。
凸设置下的反直觉结果（遗忘后比不遗忘更差）非常有力地证明了问题的严重性。
对 DA 方法的使用者来说是重要警示：这些广泛使用的方法可能根本不可靠。

局限性 / 可改进方向¶

主要是负面结论，未提出替代的遗忘方法。
理论分析集中在简单模型（logistic 回归），深度网络的理论扩展留作未来工作。
非随机遗忘集（如特定类别遗忘）的分析不够深入。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从统计依赖角度解释 DA 失败是全新视角
实验充分度: ⭐⭐⭐⭐ 理论+深度网络实证，但缺少替代方案
写作质量: ⭐⭐⭐⭐⭐ 论证逻辑清晰严密
价值: ⭐⭐⭐⭐⭐ 对遗忘领域有深远影响的负面结论