Purify Once, Edit Freely: Breaking Image Protections under Model Mismatch¶

日期: 2026-03-13
arXiv: 2603.13028
代码: 未公开
领域: AI安全 / 图像保护
关键词: adversarial perturbation, image protection, purification attack, model mismatch, diffusion transformer

一句话总结¶

揭示对抗性图像保护方法的严重缺陷——提出 VAE-Trans 和 EditorClean 两种净化器，利用模型架构不匹配（U-Net vs DiT）和 VAE 潜空间分布偏移，在 6 种保护方法 × 2100 个编辑任务上将 PSNR 提升 3-6 dB、FID 降低 50-70%，证明"净化一次，自由编辑"的攻击模式。

研究背景与动机¶

领域现状: 扩散模型使高保真图像编辑成为可能，但也带来未授权风格模仿和有害内容生成风险。主动保护方法（PhotoGuard、GLAZE、Mist 等）在图像中嵌入对抗性扰动来干扰下游编辑
现有痛点: 保护扰动针对特定代理模型（如 SD v1.5）优化，但发布后攻击者可自由选择不同编辑管线。现有净化方法（IMPRESS、GridPure）在去扰效果和图像保真之间难以兼顾
核心矛盾: 与分类任务中迁移失败仅意味着攻击不成功不同，在图像编辑中迁移失败意味着保护被擦除——对抗扰动跨异构架构的迁移性很差，模型不匹配本身就是天然净化器
本文切入: 提出统一的发布后净化框架，系统评估模型不匹配下保护的存活性

方法详解¶

整体框架¶

防御者在发布前嵌入扰动 \(x_{adv} = x + \delta\)（\(\|\delta\|_\infty \leq 16/255\)）→ 攻击者获取 \(x_{adv}\) 后施加净化 \(\mathcal{P}\) → 用不同编辑器 \(\mathcal{E}\) 自由编辑。完整攻击管线: \(x_{edit} = \mathcal{E}(\mathcal{P}(x_{adv}), y)\)。定义三级递进威胁面: ①匹配代理（SD v1.5→v1.5）②编辑器不匹配（v1.5→v2.0）③净化后编辑。

关键设计¶

VAE-Trans（潜空间净化）:
- 微调 VAE 编码器 \(\tilde{E}\)，保持解码器 \(D\) 冻结: \(x_{pur} = D(\tilde{E}(x_{adv}))\)
- 训练: 在自然图像上注入高斯噪声 \(\sigma=0.1\)，最小化 \(\frac{1}{d}\|\tilde{E}(\tilde{x}) - E(x)\|_2^2\)
- 仅训 1 小时，2000 张公开图像，探测同一模型族内编码器分布偏移导致的保护失效
EditorClean（指令引导净化）:
- 基于 FLUX.1-fill-dev（12B DiT）+ LoRA 微调（仅 0.1% 额外参数）
- 将净化视为编辑任务: diptych 结构，左侧受保护图像→右侧去噪重建
- 固定指令 "remove the noise"，训练 2000 步约 4 小时
- 推理时先注入高斯噪声 \(\sigma_{test}=0.10\) 打碎对抗性空间相关性
- 双重机制: 架构异构性（DiT vs U-Net）+ 语义重建先验

实验关键数据¶

主实验（净化后图像质量 vs 原图）¶

保护方法	净化器	LPIPS↓	FID↓
DiffusionGuard	无净化	0.258	51.65
DiffusionGuard	GridPure	0.117	63.60
DiffusionGuard	EditorClean	0.106	44.12
AdvPaint	无净化	0.338	80.49
AdvPaint	EditorClean	0.130	54.17
MIST	无净化	0.460	121.19
MIST	EditorClean	0.297	108.46

下游编辑效果（SD v1.5 Inpainting）¶

净化器	处理时间	平均 PSNR 提升	平均 FID 降低
JPEG	0.01s	+0.5-1 dB	-5-10%
IMPRESS	12min	反而恶化	+50-100%
GridPure	3min	+2-3 dB	-20-30%
EditorClean	1min	+3-6 dB	-50-70%

关键发现¶

所有 6 种保护方法（PhotoGuard/AdvDM/MIST/SDS/DiffusionGuard/AdvPaint）全部被攻破
IMPRESS 反而恶化图像质量（FID 增加 50-100%），迭代优化方法不适合此场景
从 DiT 编辑器（Step1X-Edit）优化的保护，被另一个 DiT（FLUX.1）净化时同样失效——跨架构不行，跨模型也不行

亮点与洞察¶

模型不匹配即净化: 核心洞察是对抗扰动的跨架构迁移性差。在分类中迁移失败 = 攻击无效；在编辑中迁移失败 = 保护被擦除，攻守不对称
极低训练成本: 仅用 2000 张公开图像，无需接触受保护图像或防御内部细节
将净化视为"特殊编辑任务"的 diptych 思路很巧妙

局限性 / 可改进方向¶

仅评估图像编辑（inpainting）场景，未扩展到风格微调（DreamBooth）的全面评估
未探索自适应防御——若防御者知道攻击者用 DiT 净化，能否设计跨架构鲁棒扰动？
训练噪声 \(\sigma=0.1\) 是经验选择，与对抗扰动分布的匹配程度未理论分析

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统评估模型不匹配下的保护存活性，提出统一框架
实验充分度: ⭐⭐⭐⭐⭐ 6 种保护 × 2100 任务 × 5 种净化基线
写作质量: ⭐⭐⭐⭐ 威胁模型和评估协议定义清晰
价值: ⭐⭐⭐⭐⭐ 对图像安全社区意义重大——推动更鲁棒的保护设计