跳转至

Memories of Forgotten Concepts

会议: CVPR 2025
arXiv: 2412.00782
代码: https://github.com/matanr/Memories_of_Forgotten_Concepts (有)
领域: 扩散模型 / AI安全
关键词: 概念擦除, 扩散模型, 机器遗忘, 潜空间分析, 隐私安全

一句话总结

本文揭示了扩散模型中概念擦除方法的根本缺陷——通过扩散反演找到高似然度的潜变量种子,证明被擦除的概念信息仍然存留在模型中,且可以从多个不同的种子向量重建出被擦除概念的高质量图像。

研究背景与动机

  1. 领域现状:扩散模型在文本到图像生成领域占据主导地位,但可能生成不安全内容(暴力、色情)或侵犯隐私的数据。为此,研究者开发了多种概念擦除(concept ablation)技术来限制特定概念的生成。

  2. 现有痛点:现有概念擦除方法(如ESD、FMN、Salun等)的评估方式存在根本缺陷——它们仅在输出图像层面验证擦除效果,即给定擦除文本和随机种子,检查生成图像是否仍包含被擦除概念。这种评估方式忽视了潜空间中可能仍存在生成被擦除概念的种子。

  3. 核心矛盾:概念擦除方法主要通过文本代理(text proxy)来阻断概念生成,但并未真正从模型的潜空间中移除概念信息。模型的高维潜空间中可能存在大量能生成被擦除概念的种子向量。

  4. 本文目标 提出一个系统化的分析框架,量化评估概念擦除模型是否真正"遗忘"了被擦除的概念。

  5. 切入角度:假设——被有效擦除的模型不应存在高似然度的种子向量能够生成高质量的被擦除概念图像。通过扩散反演来验证这一假设。

  6. 核心 idea:用扩散反演在被擦除模型的潜空间中搜索种子向量,发现这些种子的似然度与正常图像的种子相当,证明概念信息仍存留在模型中。

方法详解

整体框架

输入是一个被擦除的扩散模型和一组包含被擦除概念的查询图像。方法首先用VAE编码器将查询图像编码到潜空间得到 \(z_0\),然后通过扩散反演(Renoise方法)得到种子向量 \(z_T\),再用该种子通过擦除模型进行推理生成重建图像。最后分析种子 \(z_T\) 的似然度(NLL)和重建图像的质量(PSNR)。

关键设计

  1. 相对距离度量(Relative Distance Metric):

    • 功能:量化概念擦除的有效性
    • 核心思路:计算被擦除集合 \(E\) 和参考集合 \(R\) 的NLL分布与标准正态分布 \(\mathcal{N}\) 之间的Earth Mover's Distance的比值 \(d_\mathcal{N}(E,R) = \text{EMD}(\text{NLL}(E), \text{NLL}(\mathcal{N})) / \text{EMD}(\text{NLL}(R), \text{NLL}(\mathcal{N}))\)。比值接近1表示擦除失败(被擦除概念的种子和正常概念的种子一样"正常"),比值越高表示擦除越有效。
    • 设计动机:单纯看NLL数值难以解读,用无量纲的相对比值更直观地衡量擦除程度
  2. 单图像反演分析(Memory of an Ablated Concept):

    • 功能:在数据集层面验证擦除模型是否仍能生成被擦除概念
    • 核心思路:对被擦除集合中的每张图像,通过Renoise反演方法(50步反演、5步重噪声)找到一个对应的种子 \(z_T\),然后分析该种子的似然度和生成图像的PSNR
    • 设计动机:如果能为每张被擦除概念图像找到高似然且高PSNR的种子,说明模型并未真正遗忘
  3. 多记忆分析(Sequential Inversion Block, SIB):

    • 功能:证明对于同一张被擦除图像,存在多个距离很远但都能重建该图像的种子
    • 核心思路:使用随机支持图像作为起点,通过三步顺序反演——(1) VAE解码器反演得到支持图像的 \(z_0^{(s_i)}\);(2) 从该点出发优化,找到能重建查询图像的 \(z_0^{(s_i \to q)}\);(3) 对该潜变量进行扩散反演得到种子 \(z_T^{(s_i \to q)}\)。不同支持图像产生的种子之间有很大余弦距离(约0.58-0.69),但都能重建查询图像。
    • 设计动机:如果只有一个种子指向被擦除图像易被忽略,但多个分散的种子说明该概念在潜空间中有广泛的"记忆"

损失函数 / 训练策略

本文不训练模型,纯分析方法。VAE解码器反演使用欧氏距离优化,扩散反演使用Renoise方法。

实验关键数据

主实验

在9种概念擦除方法和6种概念上进行全面评估:

方法 PSNR(Church) PSNR(Nudity) \(d_\mathcal{N}\)(最高)
ESD ~27 dB ~32 dB 2.49(Parachute)
FMN ~26 dB ~31 dB <2.0
Salun ~27 dB ~30 dB <2.0
EraseDiff ~27 dB ~31 dB <2.0
Vanilla SD ~28 dB ~33 dB ~1.0(基线)

所有方法都能生成PSNR≥25 dB的被擦除概念图像,相对距离最高仅2.49。

消融实验(多记忆分析)

分析维度 结果 说明
平均余弦距离 0.58-0.69 不同种子间距离很大,确认是不同的"记忆"
到原始种子的距离 均值152.14, 标准差2.72 变异系数仅2%,种子分布在以目标种子为中心的球面上
PSNR(多记忆) ~20-28 dB 略低于单记忆,但仍可辨识
相对距离(多记忆) 低于单记忆 搜索多个种子时次优,但仍在合理范围

关键发现

  • 所有9种概念擦除方法在6种概念上都无法真正擦除概念,被擦除概念的种子似然度与正常图像重叠
  • 纹理细腻的概念(Van Gogh、Church)PSNR较低,平滑概念(Nudity、Parachute)PSNR较高
  • 最好的擦除方法(ESD on Parachute)的相对距离也仅2.49,远不足以认为概念被完全遗忘
  • 多记忆分析发现种子分布在以目标种子为中心的球面上(变异系数仅2%),这是一个有趣的几何结构

亮点与洞察

  • 潜空间似然度分析范式:不在输出图像层面而在潜空间层面评估擦除效果,这是一个根本性的视角转变。以前的工作都是"给个文本看看生成什么",本文改为"给个目标图像,看看能否找到合理的种子",这个思路可以推广到任何生成模型的安全性评估。
  • Sequential Inversion Block:通过支持图像来寻找多个不同的种子是非常巧妙的设计,避免了直接在高维空间搜索的困难。这个方法可以迁移到对抗样本搜索等任务。
  • 球面分布的发现:多个种子分布在球面上这一几何洞察,暗示了扩散模型潜空间的结构性质,对理解潜空间有重要启发。

局限与展望

  • 需要白盒访问模型权重,无法直接应用于黑盒API(如DALL-E等商业模型)
  • 分析基于SD v1.4,未扩展到更新的模型(SD-XL、Flux等),新架构可能有不同表现
  • 打乱图像实验(Fig. 10)表明反演能力可能过强,需要更仔细区分"模型记住了概念"和"反演方法太强"
  • 作者未提出改进概念擦除的方案,纯分析性工作

相关工作与启发

  • vs Pham et al.:Pham用Textual Inversion在文本嵌入空间搜索,本文在 \(z_T\) 潜空间搜索并分析似然度,维度更高且更定量
  • vs Zhang et al. (AdvUnlearn):Zhang用对抗提示攻击擦除模型,需要找特定文本;本文假设目标图像已知,分析更彻底
  • 对扩散模型安全性研究具有警示意义:仅在文本层面擦除概念是不够的,需要从潜空间角度考虑安全措施

评分

  • 新颖性: ⭐⭐⭐⭐ 从潜空间似然度角度分析概念擦除是新视角,但核心技术(Renoise反演)来自现有方法
  • 实验充分度: ⭐⭐⭐⭐⭐ 9种方法×6种概念的全面对比,单记忆和多记忆分析双重验证
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,图表设计精美(尤其Fig. 1-3的可视化),论证逻辑严密
  • 价值: ⭐⭐⭐⭐ 对概念擦除方向的重要警示,但未提供解决方案,实用性有限

相关论文