跳转至

PLA: Prompt Learning Attack against Text-to-Image Generative Models

会议: ICCV 2025
arXiv: 2508.03696
代码: 无
领域: 扩散模型 / AI安全
关键词: 对抗攻击, T2I安全, 黑盒攻击, Prompt Learning, NSFW内容检测

一句话总结

本文提出 PLA(Prompt Learning Attack),一种针对黑盒 T2I 模型的梯度驱动对抗攻击框架,通过敏感知识编码和多模态相似度损失来学习对抗性 prompt,从而绕过 prompt 过滤器和后置安全检查器,平均 ASR-4 达 90%+,远超现有方法。

研究背景与动机

领域现状:T2I 模型(如 Stable Diffusion、DALL·E 3)已广泛应用于艺术创作和内容生成,但同时面临被滥用生成 NSFW(Not-Safe-For-Work)内容的风险。为此,开发者部署了 prompt 过滤器(基于敏感词列表拦截输入)和后置安全检查器(检测生成图像中的不当内容)两类安全机制。

现有痛点:现有黑盒攻击方法(如 SneakyPrompt)大多依赖词替换策略,在有限的搜索空间中寻找替代词来绕过 prompt 过滤器,但搜索空间有限导致攻击成功率不高。相比之下,梯度驱动的训练方法具有更强的优化能力,但在黑盒设置下(无法访问模型内部参数)难以直接应用。

核心矛盾:黑盒 T2I 模型不仅隐藏了内部架构和参数,而且安全机制会在检测到 NSFW 内容时中断前向传播并返回黑图,导致传统的基于模型输出的梯度估计方法失效(黑图使得梯度为零)。

本文目标 (a) 如何在黑盒设置下实现有效的梯度驱动对抗 prompt 学习?(b) 如何解决安全机制返回黑图导致的梯度消失问题?

切入角度:利用目标 prompt 中蕴含的敏感信息作为语义引导,结合一个无安全机制的辅助模型生成目标图像,通过多模态(文本-图像、图像-图像)相似度构建可计算梯度的训练目标。

核心 idea:通过敏感知识编码保留目标 prompt 的语义意图,结合基于CLIP相似度的多模态损失和改进的零阶梯度优化,在黑盒设置下训练 prompt encoder 生成能绕过双重安全机制的对抗性 prompt。

方法详解

整体框架

PLA 包含三个核心组件:(1) 敏感知识引导编码(Sensitive Knowledge Guided Encoding),将目标 prompt 编码为包含敏感语义的可学习嵌入;(2) 攻击安全机制的 pipeline,利用预训练语言模型生成对抗 prompt 并尝试绕过黑盒 T2I 模型的安全机制;(3) 多模态损失(Multimodal Loss),通过文本-图像和图像-图像相似度指导梯度优化。

输入是一个包含敏感词的目标 prompt \(p_{tar}\),输出是一个不含敏感词但能诱导生成与目标 prompt 语义一致的 NSFW 图像的对抗 prompt \(p_{adv}\)

关键设计

  1. 敏感知识提取模块(SKE):

    • 功能:从目标 prompt 中提取敏感语义信息,生成敏感嵌入 \(e_{sen}\)
    • 核心思路:使用预训练文本编码器 \(\mathcal{T}_\theta\)\(p_{tar}\) 编码为文本嵌入 \(e_{tar} \in \mathbb{R}^d\),然后通过两层投影(低维投影 \(W_l \in \mathbb{R}^{d \times d_l}\) + 高维投影 \(W_h \in \mathbb{R}^{d_l \times d_s}\))映射为敏感嵌入 \(e_{sen} \in \mathbb{R}^{M \times d_s}\)
    • 设计动机:利用文本嵌入的高维特征保留目标 prompt 的敏感语义意图,使生成的对抗 prompt 能隐式携带敏感信息而不触发关键词过滤
  2. Prompt 编码器:

    • 功能:将敏感嵌入融入随机 prompt 的编码过程,生成可学习嵌入 \(e_{pe}\)
    • 核心思路:给定随机 prompt \(p_{ran}\),在编码器的第 \(l\) 层注入敏感嵌入:\(\hat{e}_l = e_l + \omega \cdot e_{sen}\),其中 \(\omega\) 控制敏感信息的融合程度。最终将 \(e_{pe}\)\(p_{tar}\) 拼接后输入 PLM(如 BERT 或 T5)生成对抗 prompt:\(p_{adv} = \mathcal{PLM}([e_{pe}; p_{tar}])\)
    • 设计动机:通过中间层注入而非简单拼接,使敏感信息与随机文本特征深度融合,增强对抗 prompt 的隐蔽性
  3. 辅助模型生成目标图像:

    • 功能:使用一个无安全机制的辅助 T2I 模型(如 SDv1.4)生成目标图像 \(I_{tar} = \mathcal{M}_s(p_{tar})\)
    • 核心思路:由于黑盒模型的安全机制会返回黑图,无法直接获得目标图像,因此借助辅助模型来提供图像层面的监督信号
    • 设计动机:解决黑盒设置下缺乏目标图像参考的问题,为多模态损失提供 image-image 对比信号

损失函数 / 训练策略

多模态损失 \(\mathcal{L}_{MS}\) 由两部分组成:

  • 文本-图像相似度损失:\(\mathcal{L}_a = 1 - \cos(\mathcal{T}_{en}(p_{tar}), \mathcal{V}_{en}(I_{gen}))\),利用 CLIP 的文本/图像编码器度量目标 prompt 和生成图像的语义一致性
  • 图像-图像相似度损失:\(\mathcal{L}_b = 1 - \cos(\mathcal{V}_{en}(I_{tar}), \mathcal{V}_{en}(I_{gen}))\),度量辅助模型生成的目标图像与黑盒模型实际生成图像的一致性

梯度优化:由于黑盒设置无法直接反传梯度,采用改进的零阶优化(ZOO)。传统 ZOO 通过有限差分估计梯度 \(g_1(\varsigma) = \frac{\mathcal{L}_{MS}(\varsigma + c \cdot \Delta) - \mathcal{L}_{MS}(\varsigma - c \cdot \Delta)}{2c \cdot \Delta}\),但当两个扰动均生成黑图时梯度为零。改进方法引入历史梯度动量:\(g_2(\varsigma) = \beta \hat{g}_2 + (1 - \beta) \eta \cdot g_1(\varsigma + \hat{g}_2)\),当当前梯度为零时沿历史方向继续更新。此外提出"重启"策略:首步即遇到黑图时,用高斯噪声替代黑图参与梯度计算。

实验关键数据

主实验

在 I2P 数据集上评估,使用 100 条 nudity prompts 和 30 条 violence prompts,攻击 SDv1.5、SDXLv1.0、SLD 三个黑盒模型,结合 SC、Q16、MHSC 三种后置安全检查器。

模型 方法 AVG ASR-4 (Nudity) AVG ASR-1 (Nudity) AVG ASR-4 (Violence) AVG ASR-1 (Violence)
SDv1.5 MMA-Diffusion 77.76 58.38 78.26 61.04
SDv1.5 PLA-BERT 91.45 68.69 88.62 69.51
SDXLv1.0 MMA-Diffusion 73.30 45.24 75.53 50.61
SDXLv1.0 PLA-BERT 90.57 71.43 86.95 66.61
SLD MMA-Diffusion 76.48 53.00 76.45 56.95
SLD PLA-BERT 90.82 69.30 89.20 72.03

在线服务攻击(Stability.ai 和 DALL·E 3)上 PLA-T5 的 ASR-4 分别达到 69.70% 和 51.98%(violence),均大幅超越其他方法。

消融实验

配置 ASR-4 (Violence) ASR-1 (Violence) ASR-4 (Nudity) ASR-1 (Nudity)
\(\mathcal{L}_a + \mathcal{L}_b\) (Full) 93.34 79.62 93.41 75.60
w/o \(\mathcal{L}_a\) 81.02 54.57 82.99 51.07
w/o \(\mathcal{L}_b\) 79.34 47.88 74.66 44.87
\(G_{PLA}\) (完整梯度) 91.69 70.23 95.37 76.20
\(G_{ZOO}\) (传统零阶) 52.89 46.73 58.44 41.27
\(G_{RE}\) (无重启策略) 70.12 58.24 78.33 53.90

关键发现

  • 图像-图像相似度损失 \(\mathcal{L}_b\) 的贡献比文本-图像损失 \(\mathcal{L}_a\) 更大,去掉后 ASR 下降更严重。这说明目标图像中包含更丰富的敏感信息。
  • 改进的梯度优化方法 \(G_{PLA}\) 显著优于传统零阶优化 \(G_{ZOO}\)(ASR-4 差距约 35%),验证了历史梯度动量对于解决黑图导致的梯度消失问题的有效性。
  • "重启"策略对于首步梯度消失的情况至关重要,缺失后 ASR-4 下降约 17-20 个百分点。
  • PLA-BERT 和 PLA-T5 在不同数据集上各有优势,说明不同 PLM 对不同类型敏感内容有不同的"偏好"。

亮点与洞察

  • 多模态损失设计巧妙:在无法访问黑盒模型参数的情况下,通过辅助模型+CLIP 相似度构建了有效的梯度信号。这种"借助辅助模型桥接黑盒"的思路可以迁移到其他黑盒优化任务。
  • 梯度消失的解决方案实用:安全机制返回黑图导致的梯度消失是黑盒攻击中的独特挑战,通过历史梯度动量和高斯噪声重启策略巧妙解决,该思路可推广到其他存在梯度消失的零阶优化场景。
  • 系统性的安全评估:覆盖了三种黑盒模型、三种安全检查器、两种在线服务,提供了 T2I 安全性的全面评估视角。

局限与展望

  • 论文侧重攻击但对防御改进的建议较少,未讨论如何根据 PLA 的攻击模式设计更鲁棒的防御机制
  • 辅助模型(SDv1.4)和黑盒模型可能共享类似的架构偏好,对完全不同架构的 T2I 模型(如 autoregressive 模型)的迁移性未验证
  • 评估仅限于 nudity 和 violence 两个概念,对其他敏感类别(如仇恨、自残等)的效果未探讨
  • PLM 生成的对抗 prompt 的可读性和自然性未做量化评估

相关工作与启发

  • vs MMA-Diffusion: MMA-Diffusion 是白盒攻击,需要访问模型内部参数;PLA 在黑盒设置下仍能大幅超越其白盒性能,说明多模态相似度损失提供了足够的优化信号
  • vs SneakyPrompt: 采用强化学习进行词替换搜索,受限于有限搜索空间;PLA 通过连续优化 prompt encoder 参数绕过了离散搜索的瓶颈
  • 该工作揭示了当前 T2I 安全机制的脆弱性,对红队测试和安全防御研究有重要参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ 黑盒梯度攻击设计有创意,但核心思路(CLIP相似度+零阶优化)并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖多模型、多检查器、在线服务,消融全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整
  • 价值: ⭐⭐⭐⭐ 对 T2I 安全研究有重要意义,但需注意潜在滥用风险

相关论文