Jailbreak Large Vision-Language Models Through Multi-Modal Linkage¶

会议: ACL 2025
arXiv: 2412.00473
代码: github.com/wangyu-ovo/MML
领域: 多模态VLM
关键词: 越狱攻击, 视觉语言模型, 多模态安全, 加密解密, 对齐绕过

一句话总结¶

提出多模态链接（MML）攻击框架，通过跨模态加密-解密机制和"邪恶对齐"策略，以极高成功率（GPT-4o上达99%+）越狱当前最先进的视觉语言模型。

随着GPT-4o等大型视觉语言模型（VLM）的快速发展，其潜在的滥用和安全风险引发了广泛关注。现有的越狱攻击方法主要分为三类：基于扰动的攻击（利用对抗性噪声）、基于结构的攻击（将恶意内容嵌入视觉元素）以及混合攻击。然而，现有方法在面对GPT-4o等最先进模型时效果大幅下降。

作者分析了现有结构化攻击方法失败的两个关键原因：

恶意内容过度暴露：直接在输入图像中展示有害内容（如炸弹图片或恶意排版文字），随着VLM图像理解能力和安全对齐的增强，这些显性内容很容易触发拒绝机制。

中性文本引导：缺乏隐蔽的恶意引导文本，即使模型没有直接拒绝响应，其输出也往往局限于道德建议或法律提醒——本质上是一种隐式拒绝。

基于这一洞察，作者借鉴密码学思想，提出了跨模态加密-解密的MML攻击框架。

MML攻击遵循以下流程：首先将恶意查询转换为排版图像（类似FigStep），然后对图像进行加密以隐藏恶意信息，在推理阶段通过文本提示引导模型解密图像内容，最后利用"邪恶对齐"策略将模型输出与恶意目标对齐。整个攻击在黑盒设定下进行，攻击者无需了解目标模型的参数或架构。

加密模块（Encryption）: 为减少恶意内容的直接暴露，采用四种加密策略：
- 词替换（Word Replacement）：利用NLTK进行词性标注，将恶意名词替换为食物相关词汇，将恶意形容词替换为正面描述词。例如"illegal drugs"变为"delicious pancakes"。
- 图像镜像（Image Mirroring）：对包含排版提示的图像进行水平翻转。
- 图像旋转（Image Rotation）：对图像进行几何旋转变换。
- Base64编码：将恶意文本编码为Base64格式并渲染为排版图像，视觉上晦涩但机器可解码。
解密模块（Decryption）: 在推理阶段引导模型以链式思维（CoT）方式逐步解密：
- 从图像中提取标题内容
- 应用提供的替换字典重建原始标题
- 提供原始恶意查询的打乱词列表作为解密提示（hint），用于校验解密结果
- 基于重建的标题生成最终输出

打乱词列表的设计巧妙地隐藏了有害信息，同时提供了足够的解密线索。

邪恶对齐（Evil Alignment）: 受Zeng等人启发，将攻击嵌入虚构的电子游戏开发场景：输入图像被描述为反派巢穴中一块缺失内容的屏幕，模型被要求以符合反派目标的方式补全内容。这种叙事框架将恶意意图伪装为创意任务，有效绕过安全过滤器。邪恶对齐与加密解密过程互补，显著提升了攻击的隐蔽性和成功率。

MML是一个纯推理时的攻击框架，不涉及模型训练或梯度计算。其核心优势在于完全黑盒、无需模型访问权限，仅通过精心设计的多模态输入实现攻击。

数据集	指标	MML-最佳	FigStep (SOTA)	提升
SafeBench (GPT-4o)	ASR	97.80% (旋转)	33.00%	+64.80%
MM-SafeBench (GPT-4o)	ASR	98.81% (旋转)	6.86%	+91.95%
HADES-Dataset (GPT-4o)	ASR	99.07% (B64)	4.00%	+95.07%
SafeBench (Claude-3.5)	ASR	69.40% (镜像)	16.60%	+52.80%
MM-SafeBench (Claude-3.5)	ASR	60.00% (镜像)	9.32%	+50.68%

配置	ASR(%)	DSR(%)	说明
FigStep基线	34.00	-	无加密无对齐
+加密解密	75.20	64.20	ASR提升41.2%
+加密解密+提示	79.80	59.80	提示提升ASR但DSR下降
+加密解密+邪恶对齐	96.20	65.40	邪恶对齐贡献最大
完整MML	97.60	91.60	三组件协同效果最佳