Anti-Tamper Protection for Unauthorized Individual Image Generation¶

会议: ICCV 2025
arXiv: 2508.06325
代码: https://github.com/Seeyn/Anti-Tamper-Perturbation
领域: AI安全 / 图像生成防护
关键词: 防篡改保护, 个性化图像生成, 对抗扰动, 频域水印, 图像版权

一句话总结¶

提出Anti-Tamper Perturbation (ATP)，在频域中将保护扰动（阻止伪造生成）和授权扰动（检测净化篡改）分离嵌入，当攻击者尝试净化保护信息时触发防篡改机制拒绝服务，在各种净化攻击下实现100%保护成功率。

研究背景与动机¶

随着个性化图像生成技术（如DreamBooth、Textual Inversion）的发展，在线服务商提供了便捷的定制人像生成功能。然而，伪造攻击者可以利用这些服务，盗用他人照片生成虚假人像，严重侵犯肖像权和隐私。

现有防护手段通过注入保护扰动来降低生成图像质量。但这种方法存在致命弱点：攻击者可以通过净化技术（如JPEG压缩、缩放、高斯模糊等）轻易移除保护扰动，恢复攻击能力。即使是MetaCloak等号称鲁棒的保护方法，在面对净化攻击时保护成功率仍会显著下降。

ATP的核心洞察是：与其试图让保护扰动抵抗净化（这是一场军备竞赛），不如转换思路——当净化发生时检测到它。这就像实物防伪封条：一旦被拆开（净化），留下的痕迹就会被服务商发现，从而拒绝服务请求。关键挑战在于：保护扰动本身会改变图像信息，这在概念上也是一种"篡改"，如何让授权扰动对保护扰动免疫、却对净化操作敏感？

方法详解¶

整体框架¶

ATP由两个组件构成：保护扰动\(P_{Prot}\)和授权扰动\(P_{Auth}\)。整个流程为：原始图像→BDCT变换到频域→用二值掩码分别在不同频域区域施加两种扰动→BIDCT变换回像素域→得到受保护的授权图像。下游服务商在处理生成请求时验证授权消息完整性，若被篡改则拒绝请求。

关键设计¶

掩码引导的扰动融合（Mask-Guided Perturbation Blending）:
- 功能：确保保护扰动和授权扰动互不干扰
- 核心思路：在频域中使用二值掩码\(M\)分离两种扰动的作用区域 \(P_{AP}(I) = F^{-1}[M \odot P_{Auth}(F(I)) + (1-M) \odot P_{Prot}(F(I))]\)
- 掩码\(M\)由Bernoulli分布采样（\(p=0.5\)），1的区域施加授权扰动，0的区域施加保护扰动
- 在频域操作的优势：由于每个像素值是所有频率系数的线性组合，两种扰动在像素域中均匀分布，不可区分，防止攻击者选择性净化
- 设计动机：直接在像素域分离扰动会导致两种扰动可被区分，攻击者可选择性地只净化保护扰动
块离散余弦变换（Block Discrete Cosine Transform, BDCT）:
- 功能：高效地将图像变换到频域
- 核心公式：将图像分割为\(N\times N\)的非重叠块（\(N=16\)），对每块应用DCT： \(C_{u,v} = \alpha(u)\alpha(v)\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}I_{i,j}\phi(u,i,N)\phi(v,j,N)\)
- 逆变换BIDCT将频域系数变换回像素域
- 设计动机：对整幅图像直接做DCT计算量过大，BDCT按块处理更高效
授权扰动（Authorization Perturbation）:
- 功能：在频域中嵌入授权消息，作为防篡改验证依据
- 核心思路：使用卷积自编码器\(f_\theta\)在掩码指定的频域区域嵌入二进制授权消息\(m\)（长度\(L\)），同时训练消息解码器\(D_m\)提取消息
- 编码过程：\(g_\theta(C) = (1-M) \odot C + M \odot f_\theta(M \odot C, m)\)，\(I_{enc} = F^{-1}[g_\theta(F(I))]\)
- 损失函数：\(\mathcal{L} = \mathcal{L}_{con} + \lambda_{adv}\mathcal{L}_{adv,G} + \lambda_{rec}\mathcal{L}_{rec} + \lambda_{reg}\mathcal{L}_{reg}\)
- 包含消息一致性损失\(\mathcal{L}_{con} = \|D_m(M \odot f_\theta(C)) - m\|_2^2\)和频域正则化\(\mathcal{L}_{reg} = \|f_\theta(C) - C\|_2^2\)
- 与传统水印的区别：传统水印追求鲁棒性（抗净化），授权扰动反其道而行之，需要对净化敏感
- 设计动机：嵌入可验证信息，净化操作会破坏信息完整性从而触发警报
改进的频域PGD（Protection Perturbation）:
- 功能：在频域中准确生成保护扰动，避免干扰授权区域
- 原始问题：标准PGD中的\(\Pi(\cdot)\)（投影）和\(\text{sgn}(\cdot)\)在像素域操作，会不可避免地影响掩码保护的频率系数
- 改进方案（Algorithm 1）：将符号函数和投影约束移到频域执行
  - 先计算像素域梯度\(\nabla\)
  - 变换到频域并应用掩码：\(\nabla_{freq} = M_p \odot F(\nabla)\)
  - 在频域中应用符号函数和步长
  - 投影约束在频域中的\(\epsilon\)-球内执行
- 设计动机：确保保护扰动只修改掩码指定的频率系数，不影响授权扰动区域

损失函数 / 训练策略¶

授权扰动网络在FFHQ数据集（70,000人脸图像）上训练
保护扰动使用CelebA-HQ和VGGFace2子集（每个数据集50人，每人8张图像）
基础生成模型：Stable Diffusion v2-1，个性化生成算法：DreamBooth
ATP可与任意基于PGD的保护扰动算法集成（Anti-DB, AdvDM, CAAT, MetaCloak）

实验关键数据¶

主实验（净化攻击下的保护成功率PSR）¶

方法	Clean	JPEG 50	Resize 4x	GridPure
Anti-DB	高	下降	下降	下降
Anti-DB + ATP	高	100%	100%	100%
MetaCloak	高	部分下降	部分下降	下降
MetaCloak + ATP	高	100%	100%	100%

无净化时的保护性能（CelebA-HQ）：

方法	CLIP-IQAC↓	ISM↓	FDFR↑
Anti-DB	-0.287	0.462	0.458
Anti-DB+ATP	-0.314	0.465	0.521
AdvDM	-0.336	0.417	0.664
AdvDM+ATP	-0.362	0.412	0.668

消融实验¶

融合方案	Bit-error (×\(10^{-3}\))	说明
无BDCT + 无掩码 + 无改进PGD	349.84	像素域直接混合，授权信息严重损坏
有BDCT + 无掩码	42.03	频域有帮助但无掩码仍干扰
无BDCT + 有掩码	360.31	像素域掩码保护效果差
有BDCT + 有掩码 + 标准PGD	81.72	标准PGD破坏掩码约束
完整ATP方案	0.47	三者结合极大降低Bit-error

关键发现¶

ATP使所有基线方法在净化攻击下达到100%保护成功率
ATP不降低（甚至略微提升）无净化场景下的保护性能
频域授权扰动比像素域更有效嵌入信息且对净化更敏感
改进频域PGD是保证掩码约束的关键（Bit-error从81.72降至0.47）
自适应攻击：攻击者需同时知道BDCT参数和掩码值才能绕过（搜索空间约\(2^{786414}\)）
ATP的美学影响小于原始保护扰动方法（CLIP-IQAC更高，更接近原图质量）

亮点与洞察¶

范式转换：从"抵抗净化"到"检测净化"，跳出了保护扰动与净化的军备竞赛
频域分离设计巧妙：利用DCT线性特性实现扰动在像素域的均匀分布，同时在频域中互不干扰
即插即用：ATP可与任意PGD-based保护算法集成，只需修改梯度下降过程
防篡改思想借鉴了实物防伪的直觉（如封条、防拆封设计）

局限与展望¶

依赖服务商主动验证——若攻击者在自己设备上运行生成模型则完全无效
自适应攻击中，若攻击者同时获知BDCT参数和掩码值（虽极不可能），保护失败
增加了部署端的计算开销（需执行授权验证流程）
未来方向：设计"被破坏后自动降低生成质量"的授权扰动，无需显式验证步骤

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出保护扰动的防篡改机制，范式创新显著
实验充分度: ⭐⭐⭐⭐ 覆盖4种保护算法、3种净化方式、自适应攻击、美学影响等全面评估
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图例直观，技术路线循序渐进
价值: ⭐⭐⭐⭐ 为AI生成内容的版权保护提供了新的防御维度，具有实际部署价值