Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models¶

一句话总结¶

FADE 提出邻接感知（adjacency-aware）的细粒度概念擦除框架，通过 Concept Neighborhood 识别语义邻近类别并设计 Mesh Modules（Erasing + Adjacency + Guidance 三重损失），在精确删除目标概念的同时保留语义相关概念的生成能力，相比 SOTA 方法在邻接保留性能上提升至少 12%。

研究背景与动机¶

核心问题：文本-图像扩散模型（如 Stable Diffusion）在大规模数据上训练，不可避免地学到敏感、不当或受版权保护的概念。需要选择性地擦除这些概念而不重训模型
现有方法的关键缺陷：当前遗忘方法（ESD、CA、FMN、SPM、Receler）在擦除目标概念时，会附带损害语义相近的类别（adjacency problem）
- 例如：擦除"金毛猎犬"时，连同"拉布拉多"、"平毛猎犬"等相关品种的生成能力也被破坏
- 这种"附带遗忘"在细粒度场景下尤为严重，因为类间差异微小
需求：实现 $P_\theta(c_{tar}|x) \to 0$（目标擦除），同时 $P_\theta(\mathcal{A}(c_{tar})|x) \approx P_{\theta_{original}}(\mathcal{A}(c_{tar})|x)$（邻接保留）
动机：将遗忘问题从粗粒度（locality）推进到细粒度（adjacency），这是一个此前未被形式化的重要研究方向

方法详解¶

整体框架¶

FADE 将模型知识组织为三个不相交子集： - Unlearning Set $\mathcal{D}_u$：由目标概念 $c_{tar}$ 生成的图像 - Adjacency Set $\mathcal{D}_a$：由 Concept Neighborhood 识别的语义邻近类别 - Retain Set $\mathcal{D}_r$：无关概念，作为广泛泛化的检验

通过 Mesh Modules（基于 LoRA 的轻量适配器）在三个子集上联合优化三重损失。

关键设计¶

1. Concept Neighborhood（邻接集构建）¶

对每个概念 $c \in \mathcal{C}$，用原始模型生成 $m$ 张图像
用预训练图像编码器 $\phi$ 提取特征，计算每类的平均特征向量 $\bar{\mathbf{f}}^c$
通过余弦相似度 $L(c_{tar}, c) = \langle \bar{\mathbf{f}}^{c_{tar}}, \bar{\mathbf{f}}^c \rangle / (|\bar{\mathbf{f}}^{c_{tar}}||\bar{\mathbf{f}}^c|)$ 排序
选择 top-K 最相似概念构成邻接集 $\mathcal{A}(c_{tar})$
理论支撑：证明了 k-NN 在潜在特征空间中收敛到最优朴素贝叶斯分类器（Theorem 1）

2. Mesh Modules（三重损失设计）¶

采用 LoRA 形式的轻量适配器 $\theta_M^{\mathcal{U}}$，优化以下三个损失：

Erasing Loss $\mathcal{L}_{er}$： $$\mathcal{L}_{er} = \max\left(0, \frac{1}{|\mathcal{A}|}\sum_{x \in \mathcal{A}}|\epsilon_{\theta_M^{\mathcal{U}}}^{c_{tar}} - \epsilon_\theta^x|^2 - \frac{1}{|\mathcal{D}_u|}\sum_{x \in \mathcal{D}_u}|\epsilon_{\theta_M^{\mathcal{U}}}^{c_{tar}} - \epsilon_\theta^x|^2 + \delta\right)$$ 使目标概念的噪声预测远离原位置，同时约束与邻接集的偏移最小化（类似三元组损失）

Guidance Loss $\mathcal{L}_{guid}$： $$\mathcal{L}_{guid} = |\epsilon_{\theta_M^{\mathcal{U}}}^{c_{tar}} - \epsilon_\theta^{c_{null}}|^2$$ 将目标概念引导至"空"概念方向，无需指定替代概念

Adjacency Loss $\mathcal{L}_{adj}$： $$\mathcal{L}_{adj} = \frac{1}{|\mathcal{A}|}\sum_{x \in \mathcal{A}}|\epsilon_{\theta_M^{\mathcal{U}}}^x - \epsilon_\theta^x|^2$$ 正则化项，确保邻接概念在更新后的模型中保持与原始模型一致的噪声预测

3. ERB 评价指标¶

$$\text{ERB} = \frac{2 \cdot A_{er} \cdot \hat{A}_{adj}}{A_{er} + \hat{A}_{adj} + \eta}$$ 调和平均数形式兼顾擦除效果和邻接保留，是本文提出的新基准指标。

损失函数¶

\[\mathcal{L}_{FADE} = \lambda_{er}\mathcal{L}_{er} + \lambda_{adj}\mathcal{L}_{adj} + \lambda_{guid}\mathcal{L}_{guid}\]

实验关键数据¶

主实验表（Tab. 1 — 细粒度遗忘）¶

在 Stanford Dogs / Oxford Flowers / CUB 三个数据集上，每个数据集选 3 个目标类：

方法	平均 ERB Score
ESD (ICCV'23)	~40
FMN (CVPRw'24)	~4
CA (ICCV'23)	~64
UCE (WACV'24)	~61
SPM (CVPR'24)	~69
Receler (ECCV'24)	~3
FADE (Ours)	~96

FADE 在所有 9 个目标类上 ERB 均 >94，而最强竞争者 SPM 仅 ~69。

粗粒度遗忘（Imagenette, Tab. 2）¶

方法	Target Acc↓	Others Acc↑
ESD	0.00-0.10	65-70
FADE	0.00	86-89

FADE 在完全擦除目标的同时，对其他类的保留准确率显著优于所有基线。

关键发现¶

FADE 在 ERB 指标上较 SOTA（SPM）提升 至少 12%，在某些类别上提升超 30%
Receler 虽擦除效果好（$A_{er}$=100%），但邻接保留极差（$\hat{A}_{adj}$<7%），ERB 仅 ~3
FADE 在 ImageNet-1k 的 4 个目标类上也展现出最高的鲁棒性，在结构相似度 >90% 时仍保持高邻接准确率
在 I2P 不当内容擦除实验中，FADE 同样相比基线有明显优势

亮点与洞察¶

形式化邻接感知遗忘：首次将 adjacency 作为一个独立维度提出并形式化，填补了精确遗忘研究的空白
Concept Neighborhood 的优雅设计：用生成图像的特征空间相似度自动构建邻接集，无需人工标注或分类体系
理论与实践结合：k-NN 收敛到 Naive Bayes 的理论证明为 Concept Neighborhood 方法提供了数学基础
轻量高效：基于 LoRA 的 Mesh Modules 只更新少量参数，计算开销小

局限性与可改进方向¶

K 值敏感性：邻接集大小 K=5 是超参数，不同数据集可能需要不同设置
依赖分类器：评估擦除效果需要微调分类器，增加了实验复杂度
多概念同时擦除：当前框架主要针对单概念擦除，多概念联合擦除的交互效应未充分探索
对抗鲁棒性：未评估对 adversarial prompt 的抵抗能力

评分¶

⭐⭐⭐⭐ — 问题定义清晰、方法设计严谨、实验充分，首次系统性解决扩散模型遗忘中的邻接问题。ERB 指标的提出也为后续研究提供了统一评价标准。