跳转至

Mass Concept Erasure in Diffusion Models with Concept Hierarchy

会议: AAAI2026
arXiv: 2601.03305
作者: Jiahang Tu, Ye Li, Yiming Wu, Hanbin Zhao, Chao Zhang, Hui Qian (浙江大学)
代码: GitHub
领域: image_generation
关键词: 概念擦除, 扩散模型, LoRA, 概念层级, 安全生成

一句话总结

提出基于supertype-subtype概念层级的分组擦除策略和Supertype-Preserving LoRA (SuPLoRA),通过冻结down-projection矩阵(正交于supertype子空间)仅训练up-projection矩阵,在大规模多领域概念擦除中实现擦除效果与生成质量的最优平衡。

背景与动机

问题背景

扩散模型(如Stable Diffusion)从大规模未过滤数据集中学习到不良概念(版权材料、攻击性内容、敏感个人信息),即使数据清洗后仍可能生成不安全内容。概念擦除(concept erasure)方法通过fine-tuning抑制特定概念生成。

已有工作不足

  • 参数效率低:每个擦除概念需要独立的fine-tune参数集,参数量随概念数线性增长(如MACE擦除64个概念需198MB)
  • 生成质量退化:反复擦除会抑制不仅特定于个体、还对supertype概念(如"人")至关重要的视觉特征
  • 跨域干扰:擦除一个领域的概念会意外损害另一个领域的生成能力
  • 缺少挑战性评测:现有benchmark仅擦除单一类别概念

核心动机

利用擦除概念间的语义关系——构建层级结构,将语义相似概念分组共享参数擦除,同时通过理论保证的子空间约束保护supertype概念的生成能力。

核心问题

  1. 如何在大规模概念擦除中同时保持参数效率和生成质量?
  2. 如何防止擦除subtype概念时对supertype概念生成能力的退化?
  3. 如何构建跨领域(名人+物体+色情内容)的统一擦除框架?

方法详解

概念层级构建(Sec 3.1)

利用CLIP计算概念间语义相似度 → 聚类 → GPT-4生成supertype标签: - 例:{jay, macaw, bald eagle} → supertype "bird" - 例:{Adam Driver, Adriana Lima, ...} → supertype "person" - 层级关系:\(\mathcal{G}_j = \{c_i^t \in \mathcal{C}^t \mid g(c_i^t) = c_j^p\}\)

分组抑制(Sec 3.2)

基于MACE的注意力抑制,但在supertype级别而非个体概念级别操作,同组概念共享一组LoRA参数。

擦除损失——最小化概念token对相关区域的注意力:

\[\mathcal{L}_{\text{attn}} = \mathbb{E}_{c_i \in \mathcal{G}_j, t, l}\left[\|\boldsymbol{\alpha}_{c_i}^{t,l}(\mathbf{A}_j) \odot \mathbf{M}_{c_i}\|_F^2\right]\]

扩散正则化——在非擦除区域保持去噪能力:

\[\mathcal{L}_{\text{Diff}} = \mathbb{E}_{c_i \in \mathcal{G}_j, t, \boldsymbol{\epsilon}}\left[\|(1 - \mathbf{M}_{c_i}) \odot (\boldsymbol{\epsilon} - \epsilon_\theta(\mathbf{z}_t, t, \mathcal{T}_{c_i} | \mathbf{A}_j))\|_2^2\right]\]

总损失:\(\mathcal{L} = \mathcal{L}_{\text{attn}} + \lambda \mathcal{L}_{\text{Diff}}\)

SuPLoRA设计(Sec 3.3)

关键理论推导:对比直接修改 \(\mathbf{W}\) 与仅训练 \(\mathbf{A}_j\)(冻结 \(\mathbf{B}_j\))的效果差异。

直接修改 \(\mathbf{W}\) 对擦除矩阵的更新为:

\[\Delta_{\mathbf{W}}\mathbf{W}' = -\alpha \frac{\partial \mathcal{L}}{\partial \mathbf{o}_j}\mathbf{h}_j^T\]

仅训练 \(\mathbf{A}_j\)(冻结 \(\mathbf{B}_j\))对擦除矩阵的更新为:

\[\Delta_{\mathbf{A}_j}\mathbf{W}' = \Delta_{\mathbf{W}}\mathbf{W}' \cdot \mathbf{B}_j^T\mathbf{B}_j\]

核心洞察:训练 \(\mathbf{A}_j\) 等价于在 \(\mathbf{B}_j^T\mathbf{B}_j\) 定义的子空间 \(\mathcal{S}_j^\perp\) 内修改权重。若 \(\mathcal{S}_j^\perp\) 正交于supertype梯度子空间 \(\mathcal{S}_j\),则擦除更新不干扰supertype生成。

\(\mathbf{B}_j\) 初始化: 1. 收集supertype概念描述的文本嵌入 \(\mathbf{H}_{S_j}\) 2. SVD分解得到supertype梯度子空间 \(\mathcal{S}_j = \text{span}\{\mathbf{u}_{1,j}, ..., \mathbf{u}_{r,j}\}\) 3. 计算正交补空间 \(\mathcal{S}_j^\perp\)(null space of \(\mathcal{S}_j\)) 4. 将 \(\mathbf{B}_j\) 设置为 \(\mathcal{S}_j^\perp\) 的基,冻结 \(\mathbf{B}_j\),仅训练 \(\mathbf{A}_j\)

知识蒸馏合并

\(K\) 个SuPLoRA模块通过蒸馏合并为统一权重 \(\mathbf{W}^*\)

\[\min_{\mathbf{W}^*} \underbrace{\mathbb{E}_{i,j}\|\mathbf{W}^*\mathbf{e}_{j,i}^t - (\mathbf{W} + \mathbf{A}_j\mathbf{B}_j)\mathbf{e}_{j,i}^t\|_2^2}_{\text{target alignment}} + \underbrace{\mathbb{E}_l\|\mathbf{W}^*\mathbf{e}_l^g - \mathbf{W}\mathbf{e}_l^g\|_2^2}_{\text{generality consistency}}\]

实验关键数据

Benchmark设定

  • 模型:Stable Diffusion v1.4,DDIM 50步
  • 擦除范围:30名人 + 30物体 + 4色情概念 = 共64个概念
  • 评估:ViT-L/16分类器(88.06% top-1)、GCD名人分类、NudeNet色情检测

主要结果(64概念同时擦除)

方法 名人Acc↓ 物体Acc↓ NN↓ 域内名人Acc↑ 域内物体Acc↑ FID↓ CLIP Score↑ Supertype CLIP↑ 存储(MB)↓ 时间(min)↓
ESD-u 0.00% 1.25% 59 0.50% 7.63% 34.59 25.21 22.05 3379 2166
UCE 9.87% 7.81% 163 73.62% 47.87% 18.51 29.80 24.81 3379 218
MACE 6.25% 9.17% 158 78.50% 50.63% 18.36 30.04 25.51 198 20
SPM 10.00% 65.00% 639 78.50% 63.50% 21.15 30.59 26.00 218 20
Ours 7.50% 4.17% 121 83.38% 65.00% 17.92 30.68 26.09 154 18

SuPLoRA消融

配置 域内名人/物体Acc↑ FID↓ CLIP Score↑ Supertype CLIP↑
Default LoRA(训练A+B) 79.12%/56.50% 18.18 30.18 25.19
Default LoRA, 冻结随机B 81.12%/59.87% 18.13 30.65 26.08
SuPLoRA, 训练B 79.83%/57.01% 18.23 30.25 25.22
SuPLoRA (完整) 83.38%/61.50% 17.94 30.66 26.21

概念数扩展实验(vs MACE)

设定(名人/物体) 方法 域内物体Acc↑ Supertype CLIP↑
0/10 MACE 92.87% 26.58
0/10 Ours 93.38% 26.97
20/20 MACE 59.12% 25.91
20/20 Ours 73.88% 26.33

20/20设定下物体域保留能力提升 +14.76%

亮点

  • 概念层级设计:首次利用supertype-subtype语义结构组织擦除概念,将参数集从概念数\(N\)降至分组数\(K\)(64→约6组)
  • 理论保证的子空间保护:SuPLoRA通过梯度子空间正交性分析,证明冻结正交初始化的\(\mathbf{B}_j\)可防止supertype退化
  • 跨域benchmark:构建了首个同时跨名人+物体+色情三领域的大规模擦除评测
  • 存储效率显著:154MB vs MACE 198MB vs UCE 3379MB
  • 训练速度最快:18min vs MACE 20min vs UCE 218min

局限与展望

  • 依赖共享supertype结构:当擦除概念间缺乏语义关联时,分组效果减弱
  • 两级层级限制:仅构建了parent-child两层,更复杂的多级层级实验在附录但未充分验证
  • SD v1.4限制:仅在Stable Diffusion v1.4上验证,未在SDXL、Flux等新架构测试
  • 风格域未覆盖:SD v1.4对艺术风格生成不稳定,故排除风格擦除评测
  • GPT-4依赖:层级构建和prompt增强依赖GPT-4,引入外部API成本
  • 对抗鲁棒性未评估:未测试red-teaming攻击下的擦除持久性

与相关工作的对比

  • vs ESD:ESD将擦除概念对齐到supertype("grumpy cat"→"cat"),但擦除激进导致生成崩溃;本文保护supertype生成
  • vs MACE:MACE为每个概念独立分配LoRA,存储线性增长;本文分组共享,减少至约1/4参数
  • vs UCE:UCE通过封闭式解平衡擦除与保持,但存储开销巨大(3379MB);本文仅154MB
  • vs SPM:SPM通过anchoring loss保护无关概念,但色情内容检测极差(NN=639 vs 本文121)
  • vs ConceptPrune:ConceptPrune剪枝"专家神经元",仅验证10个类别;本文验证64个跨域概念
  • vs CE-SDWV:推理时干预可被绕过(禁用模块即失效);本文修改模型权重,不可逆

启发与关联

  • SuPLoRA的子空间保护思路可推广至continual learning中的任务间干扰缓解
  • 概念层级构建方法可用于其他需要结构化知识管理的模型编辑任务
  • 分组擦除策略对大规模模型安全部署具有直接实用价值
  • 梯度子空间正交性分析为LoRA微调中的任务冲突提供了理论工具

评分

  • 新颖性: ⭐⭐⭐⭐ — 概念层级+子空间保护的组合设计新颖,理论分析有深度
  • 实验充分度: ⭐⭐⭐⭐⭐ — 跨域benchmark、多基线对比、充分消融、扩展实验
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,理论推导严谨,公式与图表配合良好
  • 价值: ⭐⭐⭐⭐ — 解决扩散模型安全部署的实际痛点,方法可扩展性强

相关论文