DiffVax: Optimization-Free Image Immunization Against Diffusion-Based Editing¶
会议: ICLR 2026
arXiv: 2411.17957
代码: 有(Project Webpage)
领域: 扩散模型 / 安全
关键词: 图像免疫, 对抗扰动, 扩散模型编辑防护, 前馈网络, 视频保护
一句话总结¶
DiffVax 训练一个前馈免疫器(UNet++),对任意图像仅需一次前向传播(~70ms)即可生成不可感知的对抗扰动,使基于扩散模型的恶意编辑失败,相比先前逐图优化方法实现 250,000× 加速,并首次将免疫扩展到视频内容。
研究背景与动机¶
- 领域现状:扩散模型(如 Stable Diffusion)的编辑能力日益强大,inpainting 和 InstructPix2Pix 等工具可以对图片进行逼真修改,但也被恶意用户利用生成 deepfake、色情报复内容等。
- 现有痛点:现有图像免疫方法(PhotoGuard、DAYN)需要对每张图片单独运行投影梯度下降优化,单张图像消耗 10 分钟到数小时,GPU 显存需求高达 15GB+,无法泛化到未见内容。
- 核心矛盾:有效免疫需要通过扩散模型反向传播来制造对抗扰动,但逐图优化的范式根本无法扩展到社交媒体等大规模场景(每日上传数百万图片/视频)。
- 本文要解决什么?(a)将免疫从逐图优化转为前馈推理;(b)保证扰动不可感知同时编辑失败;(c)对反攻击(JPEG 压缩、去噪)保持鲁棒。
- 切入角度:训练一个图像条件的扰动生成器,从大量训练样本中学习"如何聪明地放置噪声",而非每次从头优化。该设计可泛化到未见图像、未见 prompt、甚至视频帧。
- 核心 idea 一句话:用端到端训练的 UNet++ 免疫器取代逐图优化,通过 \(\mathcal{L}_{\text{noise}} + \mathcal{L}_{\text{edit}}\) 双目标学习生成低频、不可感知且编辑破坏性强的扰动。
方法详解¶
整体框架¶
训练阶段分两步:Stage 1 免疫器 \(f(\cdot;\theta)\) 对输入图像 \(\mathbf{I}\) 生成扰动 \(\epsilon_{\mathrm{im}}\),与 mask \(\mathbf{M}\) 相乘后加到图像上得到 \(\mathbf{I}_{\mathrm{im}}\);Stage 2 将免疫后图像送入冻结的 SD Inpainting 模型进行编辑,计算编辑失败损失。推理时仅需 Stage 1 的单次前向传播。
关键设计¶
- UNet++ 免疫器:
- 做什么:将输入图像映射为对抗扰动图
- 核心思路:采用 UNet++ 而非普通 U-Net,其嵌套跳跃连接提供更密集的多尺度特征聚合,经验证明对训练不稳定的对抗噪声预测任务有更好的训练稳定性
-
设计动机:生成精确的高频扰动需要多层级信息协作
-
训练与编辑解耦:
- 做什么:免疫 mask 和编辑 mask 在训练与推理间可以不同
- 核心思路:免疫器不以 prompt 为条件输入(实验证明噪声是 prompt 无关的),也不绑定特定 mask 形状
-
设计动机:解决先前方法中攻击者可利用不同 mask 绕过防护的问题
-
数据构建:
- 使用 CCP 数据集 1000 张人像 + SAM 生成 mask + ChatGPT 生成多样化背景编辑 prompt,共 2000 个 prompt
- 80/20 划分为 seen/unseen
损失函数 / 训练策略¶
\[\mathcal{L} = \alpha \cdot \mathcal{L}_{\text{noise}} + \mathcal{L}_{\text{edit}}\]
- \(\mathcal{L}_{\text{noise}} = \frac{1}{\text{sum}(\mathbf{M})} \|(\mathbf{I}_{\mathrm{im}} - \mathbf{I}) \odot \mathbf{M}\|_1\):保证扰动不可感知
- \(\mathcal{L}_{\text{edit}} = \frac{1}{\text{sum}(\sim\mathbf{M})} \|\text{SD}(\mathbf{I}_{\mathrm{im}}, \sim\mathbf{M}, \mathcal{P}) \odot (\sim\mathbf{M})\|_1\):强制编辑区域输出趋向全黑,即编辑完全失败
训练 350 epochs,batch size 5,Adam lr=1e-5,\(\alpha=4\),A100 上约 22 小时,16-bit 精度。
实验关键数据¶
主实验¶
| 方法 | SSIM↓ (seen/unseen) | PSNR↓ (seen/unseen) | SSIM(Noise)↑ | CLIP-T↓ | Runtime(s)↓ | GPU(MiB)↓ |
|---|---|---|---|---|---|---|
| PhotoGuard-E | 0.558/0.565 | 15.29/15.63 | 0.956 | 31.69/30.88 | 207.0 | 9,548 |
| PhotoGuard-D | 0.531/0.523 | 14.70/14.92 | 0.978 | 29.61/29.27 | 911.6 | 15,114 |
| DiffusionGuard | 0.551/0.556 | 14.37/14.71 | 0.965 | 26.98/27.10 | 131.1 | 6,750 |
| DiffVax | 0.510/0.526 | 13.96/14.32 | 0.989 | 23.13/24.17 | 0.07 | 5,648 |
反攻击鲁棒性¶
| 方法 | SSIM↓ (w/ Denoiser) | SSIM↓ (w/ JPEG 0.75) | SSIM↓ (w/ IMPRESS) |
|---|---|---|---|
| PG-D | 0.702/0.709 | 0.664/0.674 | 0.578/0.563 |
| DiffusionGuard | 0.708/0.719 | 0.680/0.684 | 0.604/0.595 |
| DiffVax | 0.552/0.565 | 0.522/0.538 | 0.488/0.500 |
关键发现¶
- DiffVax 学到的是低频扰动(非高频散射噪声),因此天然抵抗 JPEG 压缩和去噪器——这些方法主要移除高频分量
- 扰动平均 \(L_1\) 幅度仅 0.001,远小于基线的 0.003~0.012,说明优势在于噪声的策略性放置而非力度
- 用户研究(67 人)中 DiffVax 平均排名 1.64(最不像原始编辑),远超 PG-D 的 2.63
- 视频免疫:64 帧视频处理仅 0.739 秒 vs PG-D 的 64 小时
亮点与洞察¶
- 前馈范式的可行性证明:证明对抗扰动空间具有可学习的结构,可以用神经网络泛化到未见内容,而非必须逐图优化
- 低频扰动 = 鲁棒性:\(\mathcal{L}_{\text{noise}}\) 的 \(L_1\) 约束让模型自动学到低频扰动分布,这比固定 \(L_\infty\) budget 更高效也更抗攻击
- 视频免疫的开拓性:此前所有方法因计算限制无法处理视频,DiffVax 的效率使该方向首次可行
局限性 / 可改进方向¶
- 多小物体场景防护效果下降(噪声分散不够集中)
- 免疫 mask 与编辑 mask 差异极大时防护可能部分失效
- 跨模型迁移性有限(SD v1.5 → v2 有效但不完美)
- 训练数据仅 1000 张人像,扩展到更多样的领域(动漫、数字艺术)是重要未来方向
相关工作与启发¶
- vs PhotoGuard:PG 通过 PGD 逐图优化,速度慢 3000×,且高频噪声容易被 JPEG 移除;DiffVax 学习低频策略性扰动
- vs DiffusionGuard:DG 扩展 PG 用增广 mask 优化,仍是逐图范式,131s/图;DiffVax 0.07s/图
- vs DAYN:基于注意力的语义攻击,降低计算但同样无法泛化
- 启发:前馈对抗扰动生成器的思路可迁移到其他安全场景(如音频 deepfake 防护)
评分¶
- 新颖性: ⭐⭐⭐⭐ 前馈免疫器范式新颖,但核心思想(训练噪声生成器)在对抗攻击领域有先例
- 实验充分度: ⭐⭐⭐⭐⭐ 消融、反攻击、跨模型、用户研究、视频、多种编辑工具全面覆盖
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富
- 价值: ⭐⭐⭐⭐ 实用性强,250,000× 加速使大规模部署成为可能