TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models¶

会议: ICCV 2025 arXiv: 2503.07389 代码: GitHub 领域: 扩散模型安全·概念擦除·图像生成 关键词: concept erasure, text-to-image safety, adversarial robustness, cross-attention editing, denoising trajectory

一句话总结¶

提出 TRCE，通过两阶段概念擦除策略（文本语义擦除 + 去噪轨迹转向），在可靠擦除恶意概念的同时最小化对模型正常生成能力的影响。

研究背景与动机¶

文本到图像扩散模型（如 Stable Diffusion）在生成高质量图像的同时也面临生成 NSFW 内容的安全风险。概念擦除（Concept Erasure, CE）通过修改模型参数使其无法生成特定概念，但现有方法存在可靠性与知识保持之间的根本矛盾：

隐含恶意语义难以擦除：现有方法（如 ESD、UCE）主要消除特定关键词，但恶意概念常以隐喻、联想或对抗性提示间接表达（如不直接使用"nudity"但描述类似场景）。

知识保持与擦除可靠性的权衡：为应对对抗性提示，现有方法往往过度修改模型，严重降低无关内容的生成能力（FID 升高、CLIP-Score 下降）。

对抗攻击脆弱性：MMA、P4D、Ring-A-Bell 等红队工具能轻易绕过多数擦除方法。

TRCE 的核心洞察：恶意语义的消除和安全视觉内容的生成应在不同层面分别处理——第一阶段在文本层面消除隐含的恶意语义，第二阶段在去噪过程中将采样轨迹导向安全方向。

方法详解¶

整体框架（Fig. 3）¶

TRCE 分为两个阶段：

阶段 1：文本语义擦除（Textual Semantic Erasure） → 修改交叉注意力矩阵 阶段 2：去噪轨迹转向（Denoising Trajectory Steering） → 对比学习微调 U-Net

关键设计 1：[EoT] 作为映射目标¶

TRCE 识别出一个关键映射目标——[EoT]（End of Text）嵌入。不同于现有方法直接映射关键词嵌入（导致快速知识遗忘），[EoT] 的独特角色是：

携带整个 prompt 的语义信息
关注生成图像的显著区域
修改 [EoT] 可以改变图像内容但保留 prompt 的整体上下文

利用 LLM（GPT-4o）扩展恶意概念为 20 个同义词 + 15 个模板 = 300 个提示，并构造对应的安全提示集。通过闭式解优化交叉注意力 \(W_K, W_V\) 矩阵：

\[W' = \left(\sum_{i=1}^n W \cdot e_i^s \cdot (e_i^m)^\top + \eta \sum_{j=1}^q W \cdot e_j^k \cdot (e_j^k)^\top\right) \cdot \left(\sum_{i=1}^n e_i^m \cdot (e_i^m)^\top + \eta \sum_{j=1}^q e_j^k \cdot (e_j^k)^\top\right)^{-1}\]

关键设计 2：去噪轨迹转向¶

基于扩散模型采样的确定性性质——ODE 轨迹的早期微调就能将最终生成内容导向安全方向。

轨迹准备：用原始 U-Net \(\epsilon_\theta\) 和恶意提示缓存早期采样轨迹 \(\{z_t^m\}\)。

引导增强：构造语义增强的安全/不安全方向（使用 classifier-free guidance 放大）：

\[f_{safe} = \epsilon_\theta(z_t^m, \varnothing, t) + \beta(\epsilon_\theta(z_t^m, c^s, t) - \epsilon_\theta(z_t^m, \varnothing, t))\]

对比损失：使用 triplet margin loss 将去噪预测拉向安全方向、远离不安全方向：

\[L_{erase} = \mathbb{E}[\max(\|\hat{\epsilon}_\theta - f_{safe}\|^2 - \|\hat{\epsilon}_\theta - f_{unsafe}\|^2 + margin, 0)]\]

正则化项保持无条件预测不变：\(L_{preserve} = \|\hat{\epsilon}_\theta(z_t^u, \varnothing, t) - \epsilon_\theta(z_t^u, \varnothing, t)\|^2\)

仅微调视觉层（self-attention + cross-attention 的 Q 矩阵），3 个 epoch，约 300 秒。

实验¶

主实验：性概念擦除（Tab. 1）¶

方法	I2P ↓	MMA ↓	P4D ↓	Ring ↓	UnDiff ↓	FID_real ↓	CLIP-S ↑
SD1.4	34.69%	79.00%	83.44%	59.49%	57.75%	27.18	30.97
ESD	31.15%	58.50%	82.67%	50.63%	77.46%	26.88	31.21
UCE	8.16%	30.80%	43.71%	13.92%	19.72%	27.20	30.92
RECE	6.34%	23.10%	32.00%	6.33%	15.49%	28.26	30.79
MACE	7.09%	10.60%	7.95%	10.13%	11.27%	26.98	28.84
AdvUnlearn	1.71%	0.30%	1.99%	6.33%	3.52%	29.65	28.93
TRCE(T+V)	1.29%	1.40%	1.99%	1.27%	0.70%	26.89	30.71

TRCE(T+V) 在所有 5 种攻击下 ASR 均达到约 1%，同时 FID_real 和 CLIP-Score 保持在最优水平——擦除可靠性和知识保持首次实现真正的兼顾。

多概念擦除（Tab. 2, I2P 7 类恶意概念）¶

方法	整体 ↓	FID_real ↓	CLIP-S ↑
MACE	5.6%	26.20	28.13
TRCE(T)	3.6%	27.25	30.43
TRCE(T+V)	2.0%	27.23	30.48

关键发现：多概念擦除场景下，MACE 的 CLIP-S 从 30.97 降至 28.13（知识严重损失），而 TRCE 仅从 30.97 降至 30.48。

两阶段各自贡献分析¶

阶段	I2P ↓	MMA ↓	P4D ↓
TRCE(T) 仅第一阶段	5.05%	7.80%	7.95%
TRCE(V) 仅第二阶段	13.86%	35.00%	48.00%
TRCE(T+V) 两阶段	1.29%	1.40%	1.99%

关键发现： - 仅文本擦除已很有效（[EoT] 映射目标的优势） - 仅轨迹转向效果较差（prompt 中仍含恶意语义，后期去噪会重新引入） - 两阶段协同产生乘法效应

亮点与洞察¶

[EoT] 作为映射目标是核心贡献，比直接映射关键词更有效且更少损害知识——因为 [EoT] 携带整体语义而非孤立概念
两阶段协同的设计哲学优雅：文本层先"拆弹"，去噪层再"保险"
对抗性提示下 ASR 降至约 1% 在该领域是突破性结果
微调仅需 300 秒（单卡 RTX 4090），实用性极强

局限性¶

基于 SD1.4 评估，对 SDXL/SD3 等新架构的泛化性待验证
闭式解修改交叉注意力可能在多轮迭代擦除后积累误差
对极端复杂的对抗性 prompt 工程仍可能存在边界情况

评分¶

新颖性: ★★★★☆ — [EoT] 映射和两阶段协同设计新颖实用
技术深度: ★★★★★ — 对扩散模型内部机制理解深入
实验质量: ★★★★★ — 5 种攻击 + 多概念 + 消融，评估极为全面
写作质量: ★★★★☆ — 问题动机清晰，两阶段逻辑递进