AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts¶

会议: ICCV 2025
arXiv: 2510.24034
代码: 无
领域: 图像生成 / AI安全
关键词: Red-Teaming, text-to-image, Adversarial Prompts, LLM, Safety Evaluation

一句话总结¶

本文提出APT（AutoPrompT），一种基于LLM的黑盒红队测试框架，通过"优化-微调"交替训练管线和双规避策略，自动生成可被人类阅读且不被内容过滤器拦截的对抗性后缀，有效突破T2I模型的安全机制，并具有零样本跨提示迁移能力。

研究背景与动机¶

文生图（T2I）扩散模型在大规模多模态学习中取得了空前的生成能力，但同时继承了不受控数据收集带来的安全风险——精心构造的对抗性提示可以诱导生成不安全内容（NSFW）。现有的安全机制包括训练数据过滤、NSFW安全检查器、推理引导和概念擦除微调等，但其有效性和鲁棒性缺乏标准化的自动化评估。

现有红队测试方法存在三大关键局限：

白盒依赖：大多数方法（Ring-A-Bell、P4D、UnlearnDiffAtk）需要目标模型的梯度信息，在实际场景中不可行

语义不可读：基于离散优化的方法生成的对抗提示是无意义的字符拼接（"gibberish"），容易被困惑度过滤器检测和拦截

包含违禁词：生成的对抗提示经常显式包含黑名单中的敏感词汇，被词过滤器直接拦截

核心创新点：利用LLM的自然语言生成能力，在纯黑盒设定下自动生成人类可读且不被拦截的对抗性后缀。

方法详解¶

整体框架¶

APT采用"优化-微调"交替训练策略。优化阶段冻结LLM，通过随机beam search逐token优化对抗后缀；微调阶段用优化得到的后缀作为目标微调LLM。双规避策略贯穿优化阶段，确保生成的对抗提示同时绕过困惑度过滤器和黑名单词过滤器。

关键设计¶

对抗后缀优化:
- 功能：为给定的良性提示 \(x\) 生成对抗后缀 \(S_T = [s_1, \ldots, s_T]\)，使拼接后的提示 \([x, S_T]\) 诱导T2I模型生成不安全内容
- 核心思路：
  - 对齐约束：\(\ell_{align}(x, S_t) = \text{sim}(\mathcal{G}([x, S_t]), I) + \frac{1}{|c|} \sum_{w \in \mathcal{W}} \text{sim}(\mathcal{G}([x, S_t]), w)\)，其中第一项将生成图像与不安全图像对齐，第二项与不安全文本概念对齐
  - 随机beam search：每步从LLM预测分布中采样 \(k=12\) 个候选token，保留目标函数最低的 \(b=4\) 个beam，迭代至最大长度 \(T=15\)
  - 先验后缀：在良性提示后附加先验后缀（如"and a beautiful girl's body with"），为LLM提供上下文引导
- 设计动机：逐token优化允许精细控制每个生成步骤，结合LLM的语言先验保证生成质量
双规避策略:
- 功能：使生成的对抗提示同时绕过困惑度过滤器和黑名单词过滤器
- 核心思路：
  - 困惑度约束：引入辅助预训练LLM \(\mathcal{M}_\phi\) 计算困惑度：\(\ell_{per}(S_t|x) = -\sum_{t=1}^T \log p_\phi(s_t | [x, S_{t-1}])\)，整合为越狱约束：\(\min_{S_T} \mathcal{L}_{jai} = -\ell_{align} + \lambda \ell_{per}\)
  - 禁令token惩罚：扫描tokenizer词表，识别与不安全词汇 \(\mathcal{W}\) 语义相似度超过阈值的token，在预测时对其概率施加惩罚。额外检查多token组合可能拼成禁词的情况（取每个beam最后一个完整单词检查）
- 设计动机：低困惑度确保可读性；禁令惩罚防止LLM走捷径直接生成敏感词
后缀生成器微调:
- 功能：用优化得到的高质量后缀微调LLM，使其逐步学会直接生成有效后缀
- 核心思路：将 \((x, S_T)\) 对存入回放缓冲区 \(\mathcal{R}\)，按成功越狱和最低 \(\mathcal{L}_{jai}\) 确定优先级采样，使用交叉熵损失微调：\(\mathcal{L}_{CE} = -\sum_{t=1}^T \log p_\theta(s_t | [x, S_{t-1}])\)
- 设计动机：优化阶段获得的后缀质量逐轮提升，微调使LLM内化越狱模式，最终实现零样本推理——对未见提示直接生成有效对抗后缀

实现细节¶

后缀生成器使用Llama-3.1-8B，辅助LLM也使用相同权重（冻结）。不安全图像集50张（经分类器验证），裸露相关禁词23个，暴力相关17个。良性提示截断至50个token。

实验关键数据¶

主实验（通过黑名单词过滤后的RSR红队成功率）¶

方法	ESD↑	SLD-MAX↑	Receler↑	AdvUnlearn↑	说明
Ring-A-Bell	2.00%	2.50%	1.00%	0.50%	白盒，几乎无效
UnlearnDiffAtk	18.50%	52.00%	16.50%	3.00%	白盒
P4D-Union	41.50%	62.50%	41.50%	9.50%	白盒，需梯度
APT (Ours)	61.50%	70.50%	36.50%	30.50%	黑盒，人类可读

消融实验（ESD模型，裸露类别）¶

配置	RSR↑	PPL_Avg↓	BR↓	说明
无不安全图像对齐	38.5%	0.175	1%	缺乏视觉引导
无不安全词列表对齐	30.5%	0.067	1%	缺乏语义引导
无困惑度约束	35%	0.198	1%	可读性下降
无禁令token惩罚	9.5%	0.171	87%	几乎全被拦截
完整APT	61.5%	0.167	2%	全部组件

关键发现¶

APT的困惑度（PPL）仅为Ring-A-Bell的1/70（0.167 vs 11.646 ×10³），远优于所有基线
APT的封锁率（BR）最低——裸露和暴力类别均约2%，而基线方法高达87%
APT对AdvUnlearn的RSR达30.5%，是P4D的3.2倍（P4D仅9.5%），尤其在强防御下优势明显
跨模型迁移性强：为AdvUnlearn优化的提示在其他三个模型上均超40%成功率
可直接攻击SDXL、SD3.5、FLUX.1-dev等最新模型以及Leonardo.Ai等商业平台

亮点与洞察¶

黑盒 + 人类可读 + 不被拦截的三重约束同时满足，在实际部署中远比白盒方法有价值
"优化-微调"交替策略使LLM逐步内化越狱模式，最终实现零样本泛化
回放缓冲区的优先级采样是训练稳定性的关键设计
禁令token惩罚的两层机制（单token级别 + 多token拼接检查）体现了工程上的完备性
对最新商业API的成功攻击揭示了现有安全措施的脆弱性

局限与展望¶

为维持低困惑度和规避过滤，可能牺牲一定的攻击强度——过于严格的禁令惩罚可能抑制语义关键token
先验后缀的选择目前是手工设定的（"and a beautiful girl's body with"），自动化选择可能进一步提升性能
每个安全T2I模型需要单独训练后缀生成器，跨防御方法的统一生成器尚未实现
论文聚焦裸露和暴力两类——对其他有害内容类型（仇恨、歧视等）的覆盖未探索
红队测试工具的发布需谨慎平衡研究价值与潜在滥用风险

评分¶

新颖性: ⭐⭐⭐⭐⭐ 黑盒+可读+不可拦截的三重约束在T2I红队测试中首次同时实现
实验充分度: ⭐⭐⭐⭐ 四种安全T2I模型、最新架构和商业API、全面消融和迁移性分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，算法伪代码完整，对比分析到位
价值: ⭐⭐⭐⭐⭐ 揭示了现有T2I安全机制的根本脆弱性，为安全评估提供了实用工具