Towards Resilient Safety-Driven Unlearning for Diffusion Models Against Downstream Fine-tuning¶

会议: NeurIPS 2025
arXiv: 2507.16302
代码: https://github.com/ (代码和预训练模型已公开)
领域: 图像生成 / AI安全
关键词: 扩散模型, 安全卸载, 微调韧性, 元学习, Moreau包络

一句话总结¶

提出ResAlign框架，通过Moreau包络近似和元学习策略，让扩散模型的安全卸载（unlearning）能抵抗下游微调带来的有害行为恢复，即使在纯良性数据上微调也能保持安全性。

研究背景与动机¶

文本到图像（T2I）扩散模型（如Stable Diffusion）因在大规模网络爬取数据上预训练，不可避免地学到了有害内容生成能力（如性暴露图像）。安全驱动的卸载方法（如ESD、SafeGen、AdvUnlearn）通过修改模型参数来抑制不安全生成，取得了初步成功。

核心痛点：安全卸载后的模型在下游微调后会恢复有害能力。更令人震惊的是，本文实验发现：即使在完全良性的数据上微调，现有SOTA卸载方法也会回退到接近原始未卸载状态的不安全水平。这意味着，即使是没有恶意意图、仅想个性化使用模型的普通用户，也可能无意中恢复模型的有害行为。

核心矛盾：现有卸载方法仅优化当前参数状态下的安全性（Eq.2），但参数空间中卸载后的模型附近区域可能仍然"有毒"。微调导致的参数漂移即使沿良性方向，也可能推动模型进入这些有毒区域。

本文切入角度：卸载不仅要抑制当前状态的有害行为，还要显式地最小化微调后有害行为的恢复程度。关键挑战在于：微调本身是多步优化过程，如何高效计算"微调后的有害性关于当前参数的梯度"？

方法详解¶

整体框架¶

ResAlign在标准卸载目标上增加一个韧性项：\(\theta^* = \arg\min_\theta \mathcal{L}_{\text{harmful}}(\theta) + \alpha\mathcal{R}(\theta) + \beta[\mathcal{L}_{\text{harmful}}(\theta_{\text{FT}}^*) - \mathcal{L}_{\text{harmful}}(\theta)]\)。第三项显式惩罚微调导致的有害性增长。通过Moreau包络近似 + 元学习实现高效优化。

关键设计¶

基于Moreau包络的高效超梯度近似：
- 直接计算"有害性损失关于当前参数的超梯度" \(\nabla_\theta \mathcal{L}_{\text{harmful}}(\theta_{\text{FT}}^*)\) 需要存储和反向传播整个微调轨迹——计算和内存上不可行
- 将微调近似为Moreau包络的最小化问题：\(\theta_{\text{FT}}^* \in \arg\min_{\theta'} \mathcal{L}_{\text{FT}}(\theta') + \frac{1}{2\gamma}\|\theta'-\theta\|^2\)
- 利用一阶最优性条件+隐函数定理，将超梯度转化为线性系统 \(Ax=b\) 的求解
- 用Richardson迭代法高效求解：\(x^{(k+1)} = \gamma b - \gamma \nabla^2_{\theta_{\text{FT}}^*} \mathcal{L}_{\text{FT}} \cdot x^{(k)}\)，仅需5步即可收敛
- 关键优势：只需最终微调参数 \(\theta_{\text{FT}}^*\) 和局部Hessian-向量积（HVP），无需存储中间轨迹
跨配置元学习泛化：
- 对下游微调的配置（学习率、步数、损失函数、优化器、全参数/LoRA等）建模为元变量
- 每次内循环：随机采样一组配置 \(\mathcal{C} \sim \pi(\mathcal{C})\) 和数据 \(\mathcal{D}_{\text{FT}}\)，执行模拟微调，计算超梯度
- 重复J次后聚合超梯度，更新基础模型参数
- 这使得模型的安全韧性不局限于单一微调配置，而能泛化到各种可能的下游适应场景
理论洞察（Proposition 1）：
- 韧性项等价于隐式惩罚有害性损失的Hessian迹 \(\text{Tr}(\nabla^2_\theta \mathcal{L}_{\text{harmful}})\)
- Hessian迹是损失曲面曲率的指标——大值对应尖锐极小值（对参数扰动敏感），小值对应平坦区域
- ResAlign鼓励模型收敛到平坦的安全区域，降低对下游参数更新的敏感性

损失函数 / 训练策略¶

\(\mathcal{L}_{\text{harmful}}\)：有害提示-图像对上的负去噪损失
\(\mathcal{R}\)：在保留提示上与原始模型的噪声预测蒸馏损失
训练：单卡A100 GPU约1小时收敛，峰值显存约56GB
元学习配置分布：学习率{1e-4, 1e-5, 1e-6}，步数{5,10,20,30}，算法{全参数,LoRA}，优化器{SGD,Adam}

实验关键数据¶

主实验¶

不同微调设置下的安全性评估（IP: 不当率↓，US: 不安全分数↓）

模型	微调前IP↓	DreamBench++微调IP↓	DiffusionDB微调IP↓	FID↓
SD v1.4 (原始)	0.3598	-	-	16.90
ESD	0.0677	0.1661	0.2209	16.88
SafeGen	0.1199	0.3154	0.3344	17.11
AdvUnlearn	0.0183	0.1038	0.2975	18.31
LCFDSD-NG	0.0788	0.2238	0.2474	47.21
ResAlign	0.0014	0.0186	0.0687	18.18

消融实验¶

组件	IP↓	FID↓	说明
无超梯度+无元学习	0.2266	18.24	标准卸载基线
+超梯度	0.1826	18.07	Moreau近似有效
+超梯度+元学习(数据)	0.0322	18.35	数据多样性提升巨大
+超梯度+元学习(数据+配置)	0.0186	18.18	完整ResAlign

跨模型泛化（LoRA微调后IP↓）

模型	微调前	DreamBench++	DiffusionDB
SD v2.0	0.004	0.031	0.078
SDXL	0.033	0.044	0.059
AnythingXL	0.015	0.062	0.087
PonyDiffusion	0.023	0.045	0.067

关键发现¶

所有现有方法均脆弱：SafeGen在DiffusionDB上微调后IP从0.12恢复到0.33（接近原始SD的0.36），AdvUnlearn从0.02恢复到0.30
ResAlign在DreamBench++微调后仍保持IP=0.0186，比AdvUnlearn(0.1038)低5.5倍
在500步长微调中ResAlign始终保持低不当率且波动极小
ResAlign对数据污染有较好的抵抗力——即使20%有害数据混入，IP仍显著低于基线
各组件贡献：超梯度贡献适中(0.2266→0.1826)，元学习(数据)贡献最大(0.1826→0.0322)
FID仅从16.90微增到18.18，说明生成质量基本不受影响

亮点与洞察¶

问题发现本身就是贡献：揭示良性微调也能恢复有害能力，这对安全卸载领域是关键警示
Moreau包络+隐式微分的优化框架非常优雅——将多步微调压缩为单点求解
平坦极小值的安全性解释提供了直觉上通俗、数学上严谨的理解
元学习配置分布的设计展现了对实际使用场景的深入思考

局限与展望¶

完美的韧性面对恶意微调（使用有害数据）是固有困难的——攻击者可以将恢复有害能力视为新的学习任务
主要在SD v1.4上实验，虽然验证了跨模型泛化，但最新的Flux等模型未测试
仅关注"sexual"类别的不安全内容，对暴力、仇恨等其他类型的泛化性未验证
训练需要A100 GPU且峰值显存56GB，对普通研究者不够友好
元学习的配置分布需要手动设计，可能遗漏某些极端配置

评分¶

新颖性: ⭐⭐⭐⭐⭐ 问题定义（良性微调恢复有害能力）和解决方案（Moreau包络+元学习）都非常新颖
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多微调方法、多配置、多模型、数据污染、组件分析全面
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、理论推导严谨、实验展示系统化
价值: ⭐⭐⭐⭐⭐ 对AI安全领域有重大实用价值，解决了卸载方法的关键脆弱性