RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models¶
会议: CVPR 2026
arXiv: 2603.14819
代码: GitHub
领域: 图像生成 / AI安全
关键词: machine unlearning, ratio-aware editing, ViT, diffusion model, GDPR
一句话总结¶
提出 RAZOR, 一种基于比率感知梯度评分的多层协调编辑方法, 用于 ViT 和扩散模型的目标遗忘: 通过 forget/retain 梯度的比率和余弦对齐度联合评分, 识别对遗忘贡献最大且对保留损害最小的层/头, 实现一次性高效遗忘, 在 CLIP 身份遗忘上达到 SOTA.
研究背景与动机¶
- 领域现状: GDPR 等法规要求模型能够删除特定知识 (如个人身份). 现有遗忘方法多采用逐层独立评估或全模型微调.
- 现有痛点: (a) 知识分布在多层, 单层编辑不充分; (b) 全模型微调效率低且容易损害保留能力; (c) 需要同时权衡遗忘效果和保留性能.
- 核心idea一句话: 用 forget 梯度范数与参数范数之比, 乘以 forget-retain 梯度的余弦非对齐度, 联合评分识别最佳编辑层.
方法详解¶
关键设计¶
- 比率感知显著性评分:
- 公式: phi(l) = (||g_f_l||_2 / (||theta_l||_2 + eps)) * (1 - cos(g_f_l, g_r_l))^alpha
- 做什么: 选择 forget 梯度大 + forget 和 retain 梯度方向不一致的层
-
设计动机: 梯度方向不一致意味着编辑该层对遗忘有帮助但不损害保留
-
三损失目标:
- L_RAZOR = L_retain + lambda_f * rho * L_forget + lambda_m * L_mismatch
-
L_retain 保持保留集性能, L_forget 推动遗忘, L_mismatch 确保遗忘内容的特征偏移
-
迭代精化:
- 动态扩展编辑集直到满足遗忘阈值
- 支持 CLIP, Stable Diffusion, VLM 等多种架构
实验关键数据¶
主实验: CLIP 身份遗忘 (LAION-400M)¶
| 方法 | Forget Acc↓ | Cos Sim↓ | Priv Leak→0 | Utility↑ | Stability↑ |
|---|---|---|---|---|---|
| SSD | 42.00 | 22.00 | 0.10 | 48.00 | 98.00 |
| SalUn | 48.00 | 23.20 | 0.80 | 88.00 | 98.40 |
| SLUG | 48.00 | 28.20 | 0.40 | 88.00 | 99.80 |
| RAZOR | 40.00 | 27.46 | 0.00 | 94.00 | 100.00 |
Stable Diffusion 遗忘 (SD-V3, Style)¶
| 方法 | UA↑ | IRA↑ | CRA↑ |
|---|---|---|---|
| ESD | 99.62 | 89.97 | 98.86 |
| SalUn | 90.36 | 92.33 | 97.02 |
| SLUG | 88.20 | 85.59 | 91.00 |
| RAZOR | 99.40 | 98.97 | 100.00 |
效率对比 (SD-V1.5)¶
| 方法 | 时间(s)↓ | 内存(GB)↓ | Trade-off↑ |
|---|---|---|---|
| ESD | 6163 | 17.8 | 11.97 |
| SLUG | 39 | 3.6 | 59.42 |
| RAZOR | 78 | 4.2 | 66.86 |
VLM 遗忘 (LLaVA-1.6-8B 身份擦除)¶
平均 Forget Accuracy: 97.25% → 2.2%(几乎完全遗忘),通用能力(MME/GQA/MMBench)保持在基线水平。
消融: 评分函数各项¶
| 配置 | Forget Acc↓ | Utility↑ |
|---|---|---|
| 仅梯度范数 | 中等遗忘 | 较大损害 |
| + 参数范数归一化 | 改善遗忘 | 中等损害 |
| + cos 非对齐度 (完整RAZOR) | 最佳遗忘 | 最小损害 |
关键发现¶
- RAZOR 在 CLIP/SD/VLM 三种架构上均达到 SOTA,证明了跨架构通用性
- forget-retain 梯度余弦非对齐度是核心:它指导选择编辑该层可以有效遗忘但不损害保留的"安全层"
- 量化鲁棒性极强:4-bit 量化后 Forget Acc 仅增加约 0.38-1 个百分点
- 效率优秀:78秒完成遗忘,Trade-off 分数最高 (66.86)
亮点与洞察¶
- 比率感知评分考虑 forget 和 retain 的交互: 不只看哪层对遗忘重要, 还看编辑是否会伤害保留
- 跨架构通用: 同一框架处理 CLIP, Stable Diffusion, VLM
- 量化兼容: 即使量化后也有效, 适合部署场景
局限性 / 可改进方向¶
- 需要 forget 和 retain 数据集, 不适用于无法获取遗忘目标数据的场景
- 一次性编辑可能不足以处理大规模连续遗忘请求
- 评估指标较为间接, 缺乏生成质量的主观评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 比率感知多层协调编辑是有效的新策略
- 实验充分度: ⭐⭐⭐⭐ CLIP + SD + VLM 三种架构验证
- 写作质量: ⭐⭐⭐⭐ 方法公式化清晰
- 价值: ⭐⭐⭐⭐ GDPR 合规需求使模型遗忘具有实际应用价值