DiffVax: Optimization-Free Image Immunization Against Diffusion-Based Editing¶

会议: ICLR 2026
arXiv: 2411.17957
代码: 有（Project Webpage）
领域: 扩散模型 / 安全
关键词: 图像免疫, 对抗扰动, 扩散模型编辑防护, 前馈网络, 视频保护

一句话总结¶

DiffVax 训练一个前馈免疫器（UNet++），对任意图像仅需一次前向传播（~70ms）即可生成不可感知的对抗扰动，使基于扩散模型的恶意编辑失败，相比先前逐图优化方法实现 250,000× 加速，并首次将免疫扩展到视频内容。

研究背景与动机¶

领域现状：扩散模型（如 Stable Diffusion）的编辑能力日益强大，inpainting 和 InstructPix2Pix 等工具可以对图片进行逼真修改，但也被恶意用户利用生成 deepfake、色情报复内容等。
现有痛点：现有图像免疫方法（PhotoGuard、DAYN）需要对每张图片单独运行投影梯度下降优化，单张图像消耗 10 分钟到数小时，GPU 显存需求高达 15GB+，无法泛化到未见内容。
核心矛盾：有效免疫需要通过扩散模型反向传播来制造对抗扰动，但逐图优化的范式根本无法扩展到社交媒体等大规模场景（每日上传数百万图片/视频）。
本文要解决什么？（a）将免疫从逐图优化转为前馈推理；（b）保证扰动不可感知同时编辑失败；（c）对反攻击（JPEG 压缩、去噪）保持鲁棒。
切入角度：训练一个图像条件的扰动生成器，从大量训练样本中学习"如何聪明地放置噪声"，而非每次从头优化。该设计可泛化到未见图像、未见 prompt、甚至视频帧。
核心 idea 一句话：用端到端训练的 UNet++ 免疫器取代逐图优化，通过 \(\mathcal{L}_{\text{noise}} + \mathcal{L}_{\text{edit}}\) 双目标学习生成低频、不可感知且编辑破坏性强的扰动。

方法详解¶

整体框架¶

训练阶段分两步：Stage 1 免疫器 \(f(\cdot;\theta)\) 对输入图像 \(\mathbf{I}\) 生成扰动 \(\epsilon_{\mathrm{im}}\)，与 mask \(\mathbf{M}\) 相乘后加到图像上得到 \(\mathbf{I}_{\mathrm{im}}\)；Stage 2 将免疫后图像送入冻结的 SD Inpainting 模型进行编辑，计算编辑失败损失。推理时仅需 Stage 1 的单次前向传播。

关键设计¶

UNet++ 免疫器：
做什么：将输入图像映射为对抗扰动图
核心思路：采用 UNet++ 而非普通 U-Net，其嵌套跳跃连接提供更密集的多尺度特征聚合，经验证明对训练不稳定的对抗噪声预测任务有更好的训练稳定性
设计动机：生成精确的高频扰动需要多层级信息协作
训练与编辑解耦：
做什么：免疫 mask 和编辑 mask 在训练与推理间可以不同
核心思路：免疫器不以 prompt 为条件输入（实验证明噪声是 prompt 无关的），也不绑定特定 mask 形状
设计动机：解决先前方法中攻击者可利用不同 mask 绕过防护的问题
数据构建：
使用 CCP 数据集 1000 张人像 + SAM 生成 mask + ChatGPT 生成多样化背景编辑 prompt，共 2000 个 prompt
80/20 划分为 seen/unseen

损失函数 / 训练策略¶

\[\mathcal{L} = \alpha \cdot \mathcal{L}_{\text{noise}} + \mathcal{L}_{\text{edit}}\]

\(\mathcal{L}_{\text{noise}} = \frac{1}{\text{sum}(\mathbf{M})} \|(\mathbf{I}_{\mathrm{im}} - \mathbf{I}) \odot \mathbf{M}\|_1\)：保证扰动不可感知
\(\mathcal{L}_{\text{edit}} = \frac{1}{\text{sum}(\sim\mathbf{M})} \|\text{SD}(\mathbf{I}_{\mathrm{im}}, \sim\mathbf{M}, \mathcal{P}) \odot (\sim\mathbf{M})\|_1\)：强制编辑区域输出趋向全黑，即编辑完全失败

训练 350 epochs，batch size 5，Adam lr=1e-5，\(\alpha=4\)，A100 上约 22 小时，16-bit 精度。

实验关键数据¶

主实验¶

方法	SSIM↓ (seen/unseen)	PSNR↓ (seen/unseen)	SSIM(Noise)↑	CLIP-T↓	Runtime(s)↓	GPU(MiB)↓
PhotoGuard-E	0.558/0.565	15.29/15.63	0.956	31.69/30.88	207.0	9,548
PhotoGuard-D	0.531/0.523	14.70/14.92	0.978	29.61/29.27	911.6	15,114
DiffusionGuard	0.551/0.556	14.37/14.71	0.965	26.98/27.10	131.1	6,750
DiffVax	0.510/0.526	13.96/14.32	0.989	23.13/24.17	0.07	5,648

反攻击鲁棒性¶

方法	SSIM↓ (w/ Denoiser)	SSIM↓ (w/ JPEG 0.75)	SSIM↓ (w/ IMPRESS)
PG-D	0.702/0.709	0.664/0.674	0.578/0.563
DiffusionGuard	0.708/0.719	0.680/0.684	0.604/0.595
DiffVax	0.552/0.565	0.522/0.538	0.488/0.500

关键发现¶

DiffVax 学到的是低频扰动（非高频散射噪声），因此天然抵抗 JPEG 压缩和去噪器——这些方法主要移除高频分量
扰动平均 \(L_1\) 幅度仅 0.001，远小于基线的 0.003~0.012，说明优势在于噪声的策略性放置而非力度
用户研究（67 人）中 DiffVax 平均排名 1.64（最不像原始编辑），远超 PG-D 的 2.63
视频免疫：64 帧视频处理仅 0.739 秒 vs PG-D 的 64 小时

亮点与洞察¶

前馈范式的可行性证明：证明对抗扰动空间具有可学习的结构，可以用神经网络泛化到未见内容，而非必须逐图优化
低频扰动 = 鲁棒性：\(\mathcal{L}_{\text{noise}}\) 的 \(L_1\) 约束让模型自动学到低频扰动分布，这比固定 \(L_\infty\) budget 更高效也更抗攻击
视频免疫的开拓性：此前所有方法因计算限制无法处理视频，DiffVax 的效率使该方向首次可行

局限性 / 可改进方向¶

多小物体场景防护效果下降（噪声分散不够集中）
免疫 mask 与编辑 mask 差异极大时防护可能部分失效
跨模型迁移性有限（SD v1.5 → v2 有效但不完美）
训练数据仅 1000 张人像，扩展到更多样的领域（动漫、数字艺术）是重要未来方向

评分¶

新颖性: ⭐⭐⭐⭐ 前馈免疫器范式新颖，但核心思想（训练噪声生成器）在对抗攻击领域有先例
实验充分度: ⭐⭐⭐⭐⭐ 消融、反攻击、跨模型、用户研究、视频、多种编辑工具全面覆盖
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ 实用性强，250,000× 加速使大规模部署成为可能