跳转至

RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models

会议: CVPR 2026
arXiv: 2603.14819
代码: GitHub
领域: 图像生成 / AI安全
关键词: machine unlearning, ratio-aware editing, ViT, diffusion model, GDPR

一句话总结

提出 RAZOR, 一种基于比率感知梯度评分的多层协调编辑方法, 用于 ViT 和扩散模型的目标遗忘: 通过 forget/retain 梯度的比率和余弦对齐度联合评分, 识别对遗忘贡献最大且对保留损害最小的层/头, 实现一次性高效遗忘, 在 CLIP 身份遗忘上达到 SOTA.

研究背景与动机

  1. 领域现状: GDPR 等法规要求模型能够删除特定知识 (如个人身份). 现有遗忘方法多采用逐层独立评估或全模型微调.
  2. 现有痛点: (a) 知识分布在多层, 单层编辑不充分; (b) 全模型微调效率低且容易损害保留能力; (c) 需要同时权衡遗忘效果和保留性能.
  3. 核心idea一句话: 用 forget 梯度范数与参数范数之比, 乘以 forget-retain 梯度的余弦非对齐度, 联合评分识别最佳编辑层.

方法详解

关键设计

  1. 比率感知显著性评分:
  2. 公式: phi(l) = (||g_f_l||_2 / (||theta_l||_2 + eps)) * (1 - cos(g_f_l, g_r_l))^alpha
  3. 做什么: 选择 forget 梯度大 + forget 和 retain 梯度方向不一致的层
  4. 设计动机: 梯度方向不一致意味着编辑该层对遗忘有帮助但不损害保留

  5. 三损失目标:

  6. L_RAZOR = L_retain + lambda_f * rho * L_forget + lambda_m * L_mismatch
  7. L_retain 保持保留集性能, L_forget 推动遗忘, L_mismatch 确保遗忘内容的特征偏移

  8. 迭代精化:

  9. 动态扩展编辑集直到满足遗忘阈值
  10. 支持 CLIP, Stable Diffusion, VLM 等多种架构

实验关键数据

主实验: CLIP 身份遗忘 (LAION-400M)

方法 Forget Acc↓ Cos Sim↓ Priv Leak→0 Utility↑ Stability↑
SSD 42.00 22.00 0.10 48.00 98.00
SalUn 48.00 23.20 0.80 88.00 98.40
SLUG 48.00 28.20 0.40 88.00 99.80
RAZOR 40.00 27.46 0.00 94.00 100.00

Stable Diffusion 遗忘 (SD-V3, Style)

方法 UA↑ IRA↑ CRA↑
ESD 99.62 89.97 98.86
SalUn 90.36 92.33 97.02
SLUG 88.20 85.59 91.00
RAZOR 99.40 98.97 100.00

效率对比 (SD-V1.5)

方法 时间(s)↓ 内存(GB)↓ Trade-off↑
ESD 6163 17.8 11.97
SLUG 39 3.6 59.42
RAZOR 78 4.2 66.86

VLM 遗忘 (LLaVA-1.6-8B 身份擦除)

平均 Forget Accuracy: 97.25% → 2.2%(几乎完全遗忘),通用能力(MME/GQA/MMBench)保持在基线水平。

消融: 评分函数各项

配置 Forget Acc↓ Utility↑
仅梯度范数 中等遗忘 较大损害
+ 参数范数归一化 改善遗忘 中等损害
+ cos 非对齐度 (完整RAZOR) 最佳遗忘 最小损害

关键发现

  • RAZOR 在 CLIP/SD/VLM 三种架构上均达到 SOTA,证明了跨架构通用性
  • forget-retain 梯度余弦非对齐度是核心:它指导选择编辑该层可以有效遗忘但不损害保留的"安全层"
  • 量化鲁棒性极强:4-bit 量化后 Forget Acc 仅增加约 0.38-1 个百分点
  • 效率优秀:78秒完成遗忘,Trade-off 分数最高 (66.86)

亮点与洞察

  • 比率感知评分考虑 forget 和 retain 的交互: 不只看哪层对遗忘重要, 还看编辑是否会伤害保留
  • 跨架构通用: 同一框架处理 CLIP, Stable Diffusion, VLM
  • 量化兼容: 即使量化后也有效, 适合部署场景

局限性 / 可改进方向

  • 需要 forget 和 retain 数据集, 不适用于无法获取遗忘目标数据的场景
  • 一次性编辑可能不足以处理大规模连续遗忘请求
  • 评估指标较为间接, 缺乏生成质量的主观评估

评分

  • 新颖性: ⭐⭐⭐⭐ 比率感知多层协调编辑是有效的新策略
  • 实验充分度: ⭐⭐⭐⭐ CLIP + SD + VLM 三种架构验证
  • 写作质量: ⭐⭐⭐⭐ 方法公式化清晰
  • 价值: ⭐⭐⭐⭐ GDPR 合规需求使模型遗忘具有实际应用价值