RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models¶

领域现状: GDPR 等法规要求模型能够删除特定知识 (如个人身份). 现有遗忘方法多采用逐层独立评估或全模型微调.
现有痛点: (a) 知识分布在多层, 单层编辑不充分; (b) 全模型微调效率低且容易损害保留能力; (c) 需要同时权衡遗忘效果和保留性能.
核心idea一句话: 用 forget 梯度范数与参数范数之比, 乘以 forget-retain 梯度的余弦非对齐度, 联合评分识别最佳编辑层.

会议: CVPR 2026
arXiv: 2603.14819
代码: GitHub
领域: 图像生成 / AI安全
关键词: machine unlearning, ratio-aware editing, ViT, diffusion model, GDPR

一句话总结¶

提出 RAZOR, 一种基于比率感知梯度评分的多层协调编辑方法, 用于 ViT 和扩散模型的目标遗忘: 通过 forget/retain 梯度的比率和余弦对齐度联合评分, 识别对遗忘贡献最大且对保留损害最小的层/头, 实现一次性高效遗忘, 在 CLIP 身份遗忘上达到 SOTA.

比率感知显著性评分:
公式: phi(l) = (||g_f_l||_2 / (||theta_l||_2 + eps)) * (1 - cos(g_f_l, g_r_l))^alpha
做什么: 选择 forget 梯度大 + forget 和 retain 梯度方向不一致的层
设计动机: 梯度方向不一致意味着编辑该层对遗忘有帮助但不损害保留
三损失目标:
L_RAZOR = L_retain + lambda_f * rho * L_forget + lambda_m * L_mismatch
L_retain 保持保留集性能, L_forget 推动遗忘, L_mismatch 确保遗忘内容的特征偏移
迭代精化:
动态扩展编辑集直到满足遗忘阈值
支持 CLIP, Stable Diffusion, VLM 等多种架构

方法	Forget Acc↓	Cos Sim↓	Priv Leak→0	Utility↑	Stability↑
SSD	42.00	22.00	0.10	48.00	98.00
SalUn	48.00	23.20	0.80	88.00	98.40
SLUG	48.00	28.20	0.40	88.00	99.80
RAZOR	40.00	27.46	0.00	94.00	100.00

方法	时间(s)↓	内存(GB)↓	Trade-off↑
ESD	6163	17.8	11.97
SLUG	39	3.6	59.42
RAZOR	78	4.2	66.86

平均 Forget Accuracy: 97.25% → 2.2%（几乎完全遗忘），通用能力（MME/GQA/MMBench）保持在基线水平。