跳转至

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

会议: ICLR 2026
arXiv: 2602.19631
代码: GitHub
领域: 扩散模型 / 安全 / 遗忘
关键词: 概念擦除, 文本编码器, 因果定位, 表征误导, 模块化安全补丁

一句话总结

HiRM 提出"更新位置与擦除目标解耦"的概念擦除策略——仅更新 CLIP 文本编码器第一层的权重,但将擦除监督施加在最后一层的高层语义表征上,通过引导目标概念表征偏向随机方向(HiRM-R)或语义方向(HiRM-S),在 UnlearnCanvas 和 NSFW 基准上实现风格/物体/裸体的高效擦除,且可零样本迁移到 Flux 架构。

研究背景与动机

  1. 领域现状:概念擦除主要分为训练式(fine-tune U-Net,如 ESD、SalUn、MACE)和免训练式(闭式编辑或 prompt 操控,如 UCE、RECE、SAFREE)。两类方法都主要修改 U-Net/denoiser。
  2. 现有痛点:修改 U-Net 计算成本高、易损害不相关概念生成质量;免训练方法在擦除效果与保持之间难以平衡。
  3. 核心矛盾:Basu et al. 的因果追踪发现 CLIP 文本编码器的第一层是视觉属性的因果状态(causal state),理论上可直接在此处干预。但直接编辑早期层(如 Diff-QuickFix)在抽象概念(如 NSFW/裸体)上效果差且损害模型整体质量,因为早期层表征是"概念袋"(bag of concepts),修改它会波及所有共享的基础特征。
  4. 本文要解决什么? 在文本编码器内实现精准概念擦除,兼顾:(a) 对具体概念(风格/物体)和抽象概念(裸体)的擦除效果;(b) 不损害非目标生成质量;(c) 计算效率高且可跨架构迁移。
  5. 切入角度:Toker et al. 发现最后几层才形成连贯的高层语义表征,而早期层是分散的底层特征。因此更新点和监督点应该分开——在第一层(因果状态所在)做梯度更新,但在最后一层(高层语义形成处)定义擦除损失。
  6. 核心 idea 一句话:通过更新第一层权重来"远程"误导最后一层中目标概念的高层语义表征,实现精准定位的概念擦除。

方法详解

整体框架

给定文本编码器 \(f_{\text{text}}\)\(L\) 层 Transformer),仅更新第一层参数 \(\theta_1\),冻结 \(\theta_{2:L}\)。对含目标概念的 prompt,计算其通过所有层后的最终表征 \(h^{(L)}\),施加损失将其引导到指定方向。

关键设计

  1. HiRM-R(随机方向误导)
  2. 做什么:将目标概念的最终层 token 表征 \(h_t^{(L)}\) 拉向随机单位向量 \(\hat{r}_t\)
  3. 损失函数:\(\mathcal{L}_{\text{HiRM-R}} = \frac{1}{T} \sum_{t=1}^T \|h_t^{(L)} - c \cdot \hat{r}_t\|^2\)
  4. 设计动机:随机方向足以破坏目标语义,且对不同目标通用(不需要定义语义锚点)
  5. 转向系数 \(c=500\)(HiRM-R),控制误导强度

  6. HiRM-S(语义方向误导)

  7. 做什么:将目标表征引导向语义相关的上位概念(如 "Van Gogh" → "Painting")
  8. 损失函数:\(\mathcal{L}_{\text{HiRM-S}} = \frac{1}{T} \sum_{t=1}^T \|h_t^{(L)} - c \cdot s_t^{(L)}\|^2\)
  9. 对 NSFW 概念:构建"安全误导向量",用含裸体的 prompt 表征减去裸体语义向量(灵感来自 Ring-A-Bell 框架),将结果作为目标方向
  10. \(c=1\)for HiRM-S

  11. 更新位置与目标的解耦

  12. 为什么仅更新第一层:因果追踪确认视觉属性主要由第一层决定
  13. 为什么在最后一层施加监督:高层语义表征更精确地对应目标概念,避免"表征粉碎"(representation shattering)
  14. 消融验证:早期层做目标的模型擦除效果好但保持差,最后一层 \(W_{\text{out}}\) 做目标时擦除-保持平衡最佳

损失函数 / 训练策略

  • 风格擦除:lr=5e-5,40 epochs(HiRM-R)/ 30 epochs(HiRM-S),单词 prompt
  • 物体擦除:lr=5e-5,25 epochs(HiRM-R)/ 15 epochs(HiRM-S)
  • 裸体擦除:lr=1e-4,50 epochs(HiRM-R)/ 25 epochs(HiRM-S),多关键词联合
  • 训练时间 ~1.2s,显存 1.60 GB,无需 retain set

实验关键数据

UnlearnCanvas 基准(风格 + 物体)

方法 训练式 Style UA↑/IRA↑/AA↑ Object UA↑/IRA↑/AA↑ 训练时间(s)
ESD 98.58/80.97/91.17 92.15/55.78/64.05 7372
MACE 54.69/89.85/81.10 67.65/98.52/87.85 175
SalUn 86.26/90.39/90.58 86.91/96.35/94.28 610
Diff-Q 96.40/93.91/95.81 94.00/98.37/96.19 -
HiRM-R 95.50/89.31/94.24 93.20/98.18/94.65 1.20
HiRM-S 96.20/92.67/95.54 96.20/97.77/96.94 1.20

NSFW 擦除(对抗攻击鲁棒性)

方法 Ring-16↓ Ring-77↓ MMA↓ I2P↓ COCO CLIP↑
SalUn 0.00 2.11 0.90 0.57 0.293
RECE 1.05 1.05 0.40 0.57 0.277
Ediff 2.11 1.05 4.10 0.85 0.307
HiRM-R 0.00 0.00 8.00 0.96 0.304
HiRM-S 1.05 0.00 3.30 0.66 0.306

关键发现

  • HiRM-S 在风格和物体擦除上同时取得最佳 AA,且训练时间仅 1.2s(vs ESD 7372s),比最快的训练式方法 MACE 也快 145×
  • 与 denoiser 方法的协同效应:HiRM-R + EraseAnything 在 Flux 上将 Ring-16 从 29.47% 降至 3.16%,CLIP score 几乎不变
  • 零样本迁移 Flux:仅替换文本编码器,无需额外训练,Ring-16 从 88.42% 降至 37.89%
  • 多概念擦除(S-HiRM-S = SPEED + HiRM-S):在 50 名人擦除 + 裸体擦除上保持 MMA 1.70%、Ring-16 1.05%
  • t-SNE 可视化确认:仅目标概念表征被移动,非目标概念保持稳定

亮点与洞察

  • "解耦更新-监督"的思路极其优雅:第一层做更新(因为是因果状态),最后一层做监督(因为有高层语义),两者通过冻结的中间层自然连接
  • 模块化安全补丁:因为只修改文本编码器,可以即插即用地叠加到任何使用相同 CLIP 的模型上(包括 LoRA 微调版本、Flux),无需重新训练
  • 与 U-Net 方法正交互补:HiRM 修改文本编码器 + 其他方法修改 denoiser = 双重防线,协同效应显著

局限性 / 可改进方向

  • HiRM 对所有 token 均匀施加误导,未区分 token 重要性,可能抑制与目标无关的信息表征
  • 对 UnLearnDiffAtk(白盒对抗)的鲁棒性相对较弱(22.54% ASR),不如 SalUn/RECE
  • 多概念擦除目前通过简单权重平均融合 LoRA 模块,IRA 有所下降(65.56%),需要更精细的融合策略
  • 模型无关设计虽然简洁但也限制了利用模型内部结构的可能性

相关工作与启发

  • vs Diff-QuickFix:同为文本编码器编辑,但 Diff-Q 用闭式解直接修改第一层投影矩阵,在 NSFW 任务上效果差(I2P 7.09%但 CLIP 降到 0.273);HiRM 通过解耦监督点解决此问题
  • vs ESD:U-Net fine-tuning,风格擦除强但物体擦除严重退化(Object AA 仅 64.05%),且训练时间 7372s
  • vs SPEED:互补关系——SPEED 修改交叉注意力的 U-Net 权重擦除多概念(5s/100 概念),HiRM 修改文本编码器擦除裸体,两者组合(S-HiRM-S)效果最佳
  • 启发:因果追踪 → 定位 → 解耦干预的范式可推广到 LLM 的安全对齐

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 更新-监督解耦设计极具洞察力,首次系统在文本编码器内实现全品类概念擦除
  • 实验充分度: ⭐⭐⭐⭐⭐ UnlearnCanvas + NSFW + 对抗攻击 + Flux 迁移 + LoRA 迁移 + 协同效应,极为全面
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,消融合理
  • 价值: ⭐⭐⭐⭐⭐ 1.2s 训练 + 零样本跨架构迁移 + 模块化安全补丁,实用价值极高