Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection¶

会议: ICLR 2026
arXiv: 2602.19631
代码: GitHub
领域: 扩散模型 / 安全 / 遗忘
关键词: 概念擦除, 文本编码器, 因果定位, 表征误导, 模块化安全补丁

一句话总结¶

HiRM 提出"更新位置与擦除目标解耦"的概念擦除策略——仅更新 CLIP 文本编码器第一层的权重，但将擦除监督施加在最后一层的高层语义表征上，通过引导目标概念表征偏向随机方向（HiRM-R）或语义方向（HiRM-S），在 UnlearnCanvas 和 NSFW 基准上实现风格/物体/裸体的高效擦除，且可零样本迁移到 Flux 架构。

研究背景与动机¶

领域现状：概念擦除主要分为训练式（fine-tune U-Net，如 ESD、SalUn、MACE）和免训练式（闭式编辑或 prompt 操控，如 UCE、RECE、SAFREE）。两类方法都主要修改 U-Net/denoiser。
现有痛点：修改 U-Net 计算成本高、易损害不相关概念生成质量；免训练方法在擦除效果与保持之间难以平衡。
核心矛盾：Basu et al. 的因果追踪发现 CLIP 文本编码器的第一层是视觉属性的因果状态（causal state），理论上可直接在此处干预。但直接编辑早期层（如 Diff-QuickFix）在抽象概念（如 NSFW/裸体）上效果差且损害模型整体质量，因为早期层表征是"概念袋"（bag of concepts），修改它会波及所有共享的基础特征。
本文要解决什么？ 在文本编码器内实现精准概念擦除，兼顾：(a) 对具体概念（风格/物体）和抽象概念（裸体）的擦除效果；(b) 不损害非目标生成质量；(c) 计算效率高且可跨架构迁移。
切入角度：Toker et al. 发现最后几层才形成连贯的高层语义表征，而早期层是分散的底层特征。因此更新点和监督点应该分开——在第一层（因果状态所在）做梯度更新，但在最后一层（高层语义形成处）定义擦除损失。
核心 idea 一句话：通过更新第一层权重来"远程"误导最后一层中目标概念的高层语义表征，实现精准定位的概念擦除。

方法详解¶

整体框架¶

给定文本编码器 \(f_{\text{text}}\)（\(L\) 层 Transformer），仅更新第一层参数 \(\theta_1\)，冻结 \(\theta_{2:L}\)。对含目标概念的 prompt，计算其通过所有层后的最终表征 \(h^{(L)}\)，施加损失将其引导到指定方向。

关键设计¶

HiRM-R（随机方向误导）：
做什么：将目标概念的最终层 token 表征 \(h_t^{(L)}\) 拉向随机单位向量 \(\hat{r}_t\)
损失函数：\(\mathcal{L}_{\text{HiRM-R}} = \frac{1}{T} \sum_{t=1}^T \|h_t^{(L)} - c \cdot \hat{r}_t\|^2\)
设计动机：随机方向足以破坏目标语义，且对不同目标通用（不需要定义语义锚点）
转向系数 \(c=500\)（HiRM-R），控制误导强度
HiRM-S（语义方向误导）：
做什么：将目标表征引导向语义相关的上位概念（如 "Van Gogh" → "Painting"）
损失函数：\(\mathcal{L}_{\text{HiRM-S}} = \frac{1}{T} \sum_{t=1}^T \|h_t^{(L)} - c \cdot s_t^{(L)}\|^2\)
对 NSFW 概念：构建"安全误导向量"，用含裸体的 prompt 表征减去裸体语义向量（灵感来自 Ring-A-Bell 框架），将结果作为目标方向
\(c=1\)for HiRM-S
更新位置与目标的解耦：
为什么仅更新第一层：因果追踪确认视觉属性主要由第一层决定
为什么在最后一层施加监督：高层语义表征更精确地对应目标概念，避免"表征粉碎"（representation shattering）
消融验证：早期层做目标的模型擦除效果好但保持差，最后一层 \(W_{\text{out}}\) 做目标时擦除-保持平衡最佳

损失函数 / 训练策略¶

风格擦除：lr=5e-5，40 epochs（HiRM-R）/ 30 epochs（HiRM-S），单词 prompt
物体擦除：lr=5e-5，25 epochs（HiRM-R）/ 15 epochs（HiRM-S）
裸体擦除：lr=1e-4，50 epochs（HiRM-R）/ 25 epochs（HiRM-S），多关键词联合
训练时间 ~1.2s，显存 1.60 GB，无需 retain set

实验关键数据¶

UnlearnCanvas 基准（风格 + 物体）¶

方法	训练式	Style UA↑/IRA↑/AA↑	Object UA↑/IRA↑/AA↑	训练时间(s)
ESD	✓	98.58/80.97/91.17	92.15/55.78/64.05	7372
MACE	✓	54.69/89.85/81.10	67.65/98.52/87.85	175
SalUn	✓	86.26/90.39/90.58	86.91/96.35/94.28	610
Diff-Q	✗	96.40/93.91/95.81	94.00/98.37/96.19	-
HiRM-R	✓	95.50/89.31/94.24	93.20/98.18/94.65	1.20
HiRM-S	✓	96.20/92.67/95.54	96.20/97.77/96.94	1.20

NSFW 擦除（对抗攻击鲁棒性）¶

方法	Ring-16↓	Ring-77↓	MMA↓	I2P↓	COCO CLIP↑
SalUn	0.00	2.11	0.90	0.57	0.293
RECE	1.05	1.05	0.40	0.57	0.277
Ediff	2.11	1.05	4.10	0.85	0.307
HiRM-R	0.00	0.00	8.00	0.96	0.304
HiRM-S	1.05	0.00	3.30	0.66	0.306

关键发现¶

HiRM-S 在风格和物体擦除上同时取得最佳 AA，且训练时间仅 1.2s（vs ESD 7372s），比最快的训练式方法 MACE 也快 145×
与 denoiser 方法的协同效应：HiRM-R + EraseAnything 在 Flux 上将 Ring-16 从 29.47% 降至 3.16%，CLIP score 几乎不变
零样本迁移 Flux：仅替换文本编码器，无需额外训练，Ring-16 从 88.42% 降至 37.89%
多概念擦除（S-HiRM-S = SPEED + HiRM-S）：在 50 名人擦除 + 裸体擦除上保持 MMA 1.70%、Ring-16 1.05%
t-SNE 可视化确认：仅目标概念表征被移动，非目标概念保持稳定

亮点与洞察¶

"解耦更新-监督"的思路极其优雅：第一层做更新（因为是因果状态），最后一层做监督（因为有高层语义），两者通过冻结的中间层自然连接
模块化安全补丁：因为只修改文本编码器，可以即插即用地叠加到任何使用相同 CLIP 的模型上（包括 LoRA 微调版本、Flux），无需重新训练
与 U-Net 方法正交互补：HiRM 修改文本编码器 + 其他方法修改 denoiser = 双重防线，协同效应显著

局限性 / 可改进方向¶

HiRM 对所有 token 均匀施加误导，未区分 token 重要性，可能抑制与目标无关的信息表征
对 UnLearnDiffAtk（白盒对抗）的鲁棒性相对较弱（22.54% ASR），不如 SalUn/RECE
多概念擦除目前通过简单权重平均融合 LoRA 模块，IRA 有所下降（65.56%），需要更精细的融合策略
模型无关设计虽然简洁但也限制了利用模型内部结构的可能性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 更新-监督解耦设计极具洞察力，首次系统在文本编码器内实现全品类概念擦除
实验充分度: ⭐⭐⭐⭐⭐ UnlearnCanvas + NSFW + 对抗攻击 + Flux 迁移 + LoRA 迁移 + 协同效应，极为全面
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，消融合理
价值: ⭐⭐⭐⭐⭐ 1.2s 训练 + 零样本跨架构迁移 + 模块化安全补丁，实用价值极高