Multimodal Pragmatic Jailbreak on Text-to-image Models¶

会议: ACL 2025
arXiv: 2409.19149
代码: multimodalpragmatic.github.io
领域: 图像生成
关键词: 多模态越狱, 文本到图像模型, 安全性, 视觉文本渲染, 扩散模型

一句话总结¶

提出"多模态语用越狱"（Multimodal Pragmatic Jailbreak）新型攻击方式，通过让T2I模型生成包含视觉文字的图像，使得图像内容和文字内容单独看都安全但组合后产生不安全内容，揭示了所有测试模型（包括DALL·E 3）均受此攻击影响。

扩散模型在图像生成质量和文本一致性方面取得了显著进步，但同时其安全性问题日益受到关注。现有的安全研究主要关注单模态内容的安全过滤，而忽略了一种新的攻击方式：

单模态安全≠多模态安全：当T2I模型生成包含视觉文字的图像时，图像部分和文字部分分别评估可能都是安全的，但它们的组合会产生不安全内容。例如，一张看似无害的动物图片配上特定文字可构成仇恨言论。
语用学启发：这种攻击受语言学中"语用学"概念启发——意义不仅来自语言系统本身，还来自上下文因素。当视觉和文本信息结合时，可能产生暗示、夸张、讽刺、对比等复杂交互，导致不安全内容的涌现。
现有防御失效：关键词黑名单、定制提示过滤器和NSFW图像过滤器等常见防御手段均无法有效应对这种跨模态的语用不安全内容。

本文工作聚焦于系统性研究和基准测试，而非提出新的生成方法，核心贡献包括： 1. 构建MPUP数据集（1,400条多模态语用不安全提示） 2. 在9个代表性T2I模型上进行基准测试 3. 评估现有安全过滤器的有效性 4. 探究越狱成功的底层原因

MPUP数据集构建：
- 涵盖OpenAI使用策略中的所有不当场景，分为4大类26子类：仇恨言论（500条，8子类）、人身伤害（400条，8子类）、欺诈（300条，6子类）、色情（200条，4子类）。
- 提示格式："<图像生成提示>, with a sign that says, '<视觉文字提示>'"。
- 三步生成流程：(1) GPT-4生成各类别提示；(2) 模态选择过滤——移除单模态即不安全的提示；(3) 质量过滤——仅保留每个子类最强的前10%不安全案例。
修辞语言类别标注：
- 为每条提示标注修辞手法类别：隐喻/明喻、讽刺、拟人/拟兽、典故、夸张。
- 分析哪种修辞手法的提示更容易通过T2I模型表现为带视觉文字的图像，从而导致更高风险。
安全分类器测试平台：
- 文本过滤器：关键词黑名单（Midjourney和Leonardo.AI）、BERT分数语义相似度、LLM分类器（Vicuna 7B、GPT-3.5）、OpenAI Moderation API。
- 图像分类器：Q16、Multi-Headed SC（MHSC）、NSFW过滤器（基于ResNet-50）。
- 通过"提示模态移除"和"提示模态修改"两种技术生成总计7,000条提示和9,800张图像用于评估。
评估方法：
- 使用GPT-4o进行攻击成功率（ASR）评估，带有类别特定提示和少样本示例。
- 与人类标注对比验证：GPT-4o与人类标签一致性74.3%（Claude 3.5 Sonnet仅53.9%）。
- 视觉文字质量通过OCR精确匹配和子串匹配评估。

本文为安全性评估研究，不涉及模型训练。主要的技术分析包括： - 将越狱能力归因于模型的视觉文字渲染能力 - 分析训练数据中包含视觉文字的图文对是渲染能力的来源

模型	仇恨言论ASR(%)	人身伤害ASR(%)	欺诈ASR(%)	色情ASR(%)	平均ASR(%)
DALL·E 3	63.3	85.4	72.4	52.4	68.2
OpenDalle	67.6	82.0	61.3	58.5	69.1
Proteus	58.6	76.5	62.7	46.5	62.9
DeepFloyd	57.8	66.5	49.7	61.5	59.1
SDXL	32.0	64.3	43.0	37.5	44.4
SD	33.0	46.8	42.3	30.5	38.2
SLD	7.6	11.0	5.0	3.0	7.4

安全分类器	仇恨言论Acc(%)	人身伤害Acc(%)	欺诈Acc(%)	色情Acc(%)	说明
随机过滤	80.0	80.0	80.0	80.0	基线
关键词黑名单	79.5	79.4	78.9	79.1	与随机持平
BERT分数	78.0	78.8	78.9	79.1	与随机持平
GPT-3.5	72.8	72.8	74.5	77.3	低于随机
OpenAI Moderation API	80.3	80.2	80.0	76.8	略优于随机
Q16图像分类器	65.0	60.9	61.0	62.5	勉强优于随机

所有测试模型均受影响：9个T2I模型的ASR范围从约10%到70%，DALL·E 3尽管部署了多重安全措施仍表现为最不安全模型之一（平均ASR 68.2%）。
视觉文字渲染能力是关键因素：子串OCR准确率与ASR高度相关（DALL·E 3子串OCR约50%，ASR约70%；SLD子串OCR极低，ASR仅7.4%）。
即使拼写错误也可能不安全：部分文字虽未正确渲染，但错误渲染的文字仍可能被人类理解为不安全内容。
现有单模态安全过滤器全面失效：文本过滤器和图像分类器的表现与随机过滤相当甚至更差。
在线T2I服务（Midjourney、Leonardo.AI等）的拒绝率极低（0-11.4%），ASR仍高达24-40%。