ESC: Erasing Space Concept for Knowledge Deletion¶

会议: CVPR 2025
arXiv: 2504.02199
代码: https://github.com/KU-VGI/ESC (有)
领域: AI安全 / 机器遗忘
关键词: 知识删除, 机器遗忘, SVD子空间, 特征级隐私, 训练无关方法

一句话总结¶

提出 ESC（Erasing Space Concept），通过 SVD 分解待遗忘数据的特征空间并移除主成分方向，实现训练无关的特征级知识删除，首次定义了"知识删除"（Knowledge Deletion）任务并提出 Knowledge Retention Score 评估特征级遗忘效果。

研究背景与动机¶

领域现状：机器遗忘（Machine Unlearning, MU）旨在从已训练模型中移除特定数据的影响。现有方法（如 Negative Gradient、Random Label、SalUn 等）通过端到端训练修改模型权重来实现遗忘。

现有痛点：现有 MU 方法存在严重的特征级知识残留问题——虽然分类头被有效修改导致预测改变，但特征提取器中的知识几乎未被触及。实验显示只需在"已遗忘"模型的冻结特征上训练一个新的线性探测器，就能恢复大量"已删除"知识（如 Figure 1 中线性探测恢复率接近原始模型）。

核心矛盾：现有方法使用基于 logit 的损失函数进行端到端训练，模型会找到"走捷径"的方式——只修改分类头就足以最小化 logit 上的遗忘损失，导致特征提取器中的知识完好无损。

本文目标 实现特征级别的知识删除，确保即使通过线性探测等方法也无法从特征中恢复被删除的知识。

切入角度：直接在特征空间中操作——用 SVD 找到待遗忘数据的主方向，然后投影到剩余子空间中消除这些方向的激活。无需训练即可完成。

核心 idea：用 SVD 分解待遗忘数据的特征矩阵，移除前 p% 主成分方向 = 训练无关的特征级知识删除。

方法详解¶

整体框架¶

将分类模型分为特征提取器 \(h_\psi\) 和分类头 \(g_\phi\)。将待遗忘数据 \(\mathcal{D}_f\) 通过 \(h_\psi\) 得到特征矩阵 \(Z_f\)，对 \(Z_f\) 做 SVD 得到主方向 \(U\)，移除前 \(k\) 个主方向得到 \(U_P\)。推理时用 \(U_P U_P^\top\) 投影所有特征。

关键设计¶

ESC（训练无关版本）:
- 功能：无需训练即可删除特征空间中的遗忘知识
- 核心思路：对待遗忘数据的特征矩阵 \(Z_f = U \Sigma V^\top\) 做 SVD，移除前 \(k = \frac{d}{100} \cdot p\) 个主成分方向得到 \(U_P = U[k:]\)。推理时特征投影为 \(h_{\psi_P}(x) = U_P U_P^\top h_\psi(x)\)。被移除的主方向正是待遗忘数据中方差最大的方向，包含最多判别信息
- 设计动机：Figure 3 的 toy 实验显示，移除主成分后待遗忘类的特征与原始特征的余弦相似度从 >0.5 降到 <0.35，同时其他类特征几乎不受影响
ESC-T（带训练版本）:
- 功能：通过可学习掩码实现更细粒度的知识删除，平衡遗忘与保留
- 核心思路：不直接移除整个主方向，而是为每个主方向引入可学习掩码 \(M_0\)（初始化为 1）。用 Penalized Cross-Entropy Loss 训练掩码——当模型对遗忘数据预测正确时施加惩罚，驱动掩码关闭对应元素。最终得到精化主方向 \(U_R\)
- 设计动机：ESC 的硬剪裁可能过度遗忘（移除整个方向而非方向中的关键元素），ESC-T 通过逐元素掩码实现"精准手术"式删除
Knowledge Retention Score (KR):
- 功能：评估特征级别的知识残留程度
- 核心思路：冻结遗忘后模型的特征提取器，只训练新的线性探测器，测量对遗忘数据和保留数据的分类准确率。如果线性探测能恢复遗忘数据的高准确率，说明特征级知识仍然存在
- 设计动机：现有评估（准确率、MIA）只关注输出层，无法检测特征中的残留知识

损失函数 / 训练策略¶

ESC 完全无需训练。ESC-T 使用 Penalized Cross-Entropy Loss：\(\mathcal{L}_{PCE} = -\sum_c \hat{y}_c \log(1 - p_c)\)，当模型对遗忘类预测正确时产生高损失，驱动掩码关闭相关特征。只训练掩码参数，backbone 冻结。

实验关键数据¶

主实验¶

CIFAR-10 知识删除对比（All-CNN）：

方法	\(D_f\)↓	\(D_r\)↑	\(D_{ft}\)↓	HM↑	MIA	KR-\(D_f\)↓
Original	98.42	98.29	85.90	3.11	57.68	98.40
Retrain	0.00	96.93	0.00	98.44	50.06	41.28
SalUn	0.00	98.86	0.00	99.43	56.42	62.03
ESC	9.46	96.52	10.73	93.43	53.02	10.21
ESC-T	0.00	97.23	0.00	98.60	56.72	14.62

关键发现：SalUn 在输出层实现完美遗忘（\(D_f\)=0）但 KR 高达 62%（特征级知识仍在！），ESC/ESC-T 的 KR 降到 10-15%。

消融实验¶

配置	遗忘效果	保留效果	说明
p=10%	部分遗忘	保留很好	删除不够彻底
p=30%	良好遗忘	保留良好	最佳平衡点
p=50%	完全遗忘	保留下降	过度遗忘
ESC-T	完全遗忘	保留最优	可学习掩码精确控制

关键发现¶

现有 MU 方法在特征级别失败：线性探测恢复率高达 80-96%，说明分类头面知识被删除但特征提取器中的知识完好
ESC 实现零训练的特征级删除：仅用 SVD + 投影就能将 KR 从 98% 降到 10%，整个过程无需梯度计算
ESC-T 精化效果更好：可学习掩码让遗忘和保留的平衡更优，HM 分数接近 Retrain 的理想值
适用于人脸场景：在 CelebA-HQ 等人脸数据集上也有效，满足真实世界的隐私删除需求

亮点与洞察¶

揭露了现有机器遗忘的"虚假安全"：通过 KR 指标证明了大量遗忘方法实际上只改变了分类头而非真正删除知识——这对整个机器遗忘社区是一个重要警示
SVD 的优雅应用：用主成分方向代表"概念空间"，移除主方向等于移除概念——这个抽象既直觉合理又数学严谨
训练无关的速度优势：ESC 只需一次 SVD 分解（秒级），比任何基于梯度的方法都快几个数量级

局限与展望¶

主成分方向可能在类间共享：如果待遗忘类和保留类共享某些主方向（如背景特征），移除可能导致保留类性能下降
固定剪裁比例 p 需要调参：不同数据集和模型需要不同的 p 值
仅在分类任务上验证：生成模型（如扩散模型）的特征级遗忘是更大挑战
KR 指标依赖线性探测：非线性探测可能恢复更多信息

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次定义特征级知识删除问题，KR 指标揭示了领域盲点
实验充分度: ⭐⭐⭐⭐ 多数据集多模型，KR 分析深入，但缺少大规模实验
写作质量: ⭐⭐⭐⭐ 问题定义清晰，但符号繁多
价值: ⭐⭐⭐⭐⭐ 对机器遗忘社区有方向性影响，KR 指标可能成为标准评估工具