Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency¶

会议: ICCV 2025
arXiv: 2501.04931
作者: Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei (北京航空航天大学) 领域: multimodal_vlm / AI安全
关键词: 多模态大语言模型安全, 越狱攻击, Shuffle Inconsistency, 黑盒优化, 安全对齐

一句话总结¶

发现多模态大语言模型(MLLMs)在理解能力和安全能力之间存在打乱不一致性(Shuffle Inconsistency)——模型能理解打乱后的有害指令，但安全机制却无法防御；据此提出基于查询的黑盒越狱攻击方法 SI-Attack，在开源和闭源商用模型上均显著提升攻击成功率。

研究背景与动机¶

多模态大语言模型(如 GPT-4o、Claude-3.5-Sonnet)在商业应用中取得了显著进展，但仍面临安全漏洞风险。越狱攻击(Jailbreak Attack)作为红队测试手段，旨在绕过模型的安全机制、发现潜在风险。

现有越狱方法的主要问题：

复杂度高：多数方法依赖复杂的对抗优化（如对抗扰动注入）或精心设计的图文提示

闭源模型攻击效果差：商用闭源模型通常有额外的外部安全护栏(outer safety guardrails)，能检测有害意图并拦截攻击指令，导致现有方法的攻击成功率有限

缺乏对模型能力间隙的利用：先前工作较少关注模型理解能力与安全能力之间的差异

本文的核心发现：先前研究表明 MLLMs 对打乱顺序的文本和图像仍能保持较好的理解能力（如文本/图像检索任务）。作者由此提出两个关键问题：

理解能力维度：MLLMs 是否能理解打乱后的有害文本和图像？
安全能力维度：MLLMs 的防御机制是否能抵御打乱后的有害指令？

实验显示答案令人惊讶：MLLMs 能够理解打乱后的有害指令，但其安全防御机制却无法有效防御这些打乱后的指令。这种理解能力与安全能力之间的不一致即为"Shuffle Inconsistency"。

方法详解¶

整体框架¶

SI-Attack 的核心思路是：利用 Shuffle Inconsistency 漏洞，通过打乱有害指令的文本和图像来绕过安全机制，并通过基于查询的黑盒优化来克服打乱操作的随机不稳定性，选出最有效的打乱组合。

整体流程： 1. 将输入的有害文本按词级别(word-wise)拆分并随机打乱 2. 将输入的有害图像按块级别(patch-wise)拆分并随机打乱 3. 将打乱后的文图输入目标 MLLM 获取响应 4. 用毒性评判模型评估响应的有害程度 5. 若有害分数达到阈值则攻击成功；否则重复打乱直至达到最大迭代次数

关键设计¶

1. 文本打乱(Text Shuffle)

将有害文本 \(T = [w_1, w_2, \ldots, w_n]\) 按词级别随机打乱：

\[T' = \text{Shuffle}_w(T)\]

实验比较了多种打乱策略：不打乱、仅打乱名词和形容词、三元组打乱、三元组内打乱、基于 BPE 的 token 级打乱、全词打乱。结果显示全词打乱效果最佳（ASR 80.41%），因为它最大程度地破坏了安全机制的模式匹配能力，同时模型仍能理解语义。

2. 图像打乱(Image Shuffle)

将有害图像划分为 \(m\) 个 patch 块并随机打乱：

\[I' = \text{Shuffle}_p(I), \quad I = [p_1, p_2, \ldots, p_m]\]

实验比较了不同 patch 数目：1、4、9、16、25、64。结果显示 4 个 patch 块效果最佳（ASR 80.41%）。patch 数过多会导致模型理解困难，数过少则无法有效绕过安全机制。

3. 基于查询的黑盒优化

单纯随机打乱具有不稳定性，并非所有打乱结果都能绕过防御。因此引入迭代优化机制：

使用 ChatGPT-3.5 作为毒性评判模型 \(\mathcal{J}\)
毒性评分范围 1-5（1=安全，5=高风险有害）
攻击成功阈值 \(S_\tau = 4\)
最大查询迭代次数设为 10
每次迭代重新随机打乱文图，评估毒性，若达到阈值则停止

\[\text{ASR} = \frac{\text{sum}\{\mathcal{J}(I, y) \geq S_\tau\}}{N_{\text{total}}}\]

损失函数/优化目标¶

本方法不涉及传统的梯度优化损失函数，而是基于查询反馈的黑盒优化。优化目标是最大化目标模型响应的毒性评分，以反馈驱动的方式筛选最有效的打乱组合。算法在每次迭代中：若当前打乱输入的响应毒性评分 \(\geq S_\tau\)，则攻击成功；否则继续下一轮随机打乱。

实验关键数据¶

主实验：三大基准测试¶

评估模型覆盖 4 个开源模型(LLaVA-NEXT, MiniGPT-4, InternVL-2, VLGuard)和 4 个闭源模型(GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro, Qwen-VL-Max)。

MM-safetybench (with typography) 攻击成功率(ASR%)：

模型	原始攻击	SI-Attack	提升
LLaVA-NEXT	43.99%	62.68%	+18.69%
MiniGPT-4	27.20%	62.44%	+35.24%
InternVL-2	40.30%	71.01%	+30.71%
VLGuard	9.52%	40.77%	+31.25%
GPT-4o	20.77%	68.57%	+47.80%
Claude-3.5-Sonnet	7.50%	47.20%	+39.70%
Gemini-1.5-Pro	21.07%	71.25%	+50.18%
Qwen-VL-Max	33.04%	68.63%	+35.59%

SafeBench (Figstep) 攻击成功率(ASR%)：

模型	Figstep	SI-Attack	提升
LLaVA-NEXT	44.40%	74.00%	+29.60%
InternVL-2	38.60%	82.60%	+44.00%
GPT-4o	11.80%	59.20%	+47.40%
Claude-3.5-Sonnet	29.40%	48.60%	+19.20%
Gemini-1.5-Pro	50.60%	80.20%	+29.60%

消融实验¶

图像与文本打乱组件贡献（GPT-4o, MM-safetybench 01-IA 子集）：

设置	Toxic Score	ASR(%)
原始图文	1.64	13.40%
仅打乱图像	2.51	35.05%
仅打乱文本	3.69	67.01%
图文均打乱	3.96	80.41%

查询优化的必要性：

设置	Toxic Score	ASR(%)
原始输入	1.64	13.40%
随机打乱(无优化)	2.65	28.87%
优化后打乱	3.96	80.41%

最大迭代次数影响：

迭代次数	Toxic Score	ASR(%)
1	2.65	28.87%
5	3.75	69.07%
10	3.96	80.41%
20	4.01	81.44%

关键发现¶

文本打乱比图像打乱更有效：仅文本打乱的 ASR(67.01%) 远高于仅图像打乱(35.05%)，表明 MLLMs 在文本侧的安全漏洞更严重
查询优化至关重要：优化后 ASR 从 28.87% 提升到 80.41%，说明并非所有随机打乱都有效，需要筛选
10 次迭代基本收敛：20 次迭代仅微幅提升(81.44% vs 80.41%)
对不同规模模型均有效：InternVL-2 的 4B/8B/26B 版本 ASR 均约 70%，说明方法不受模型规模影响
对抗 PPL 检测器仍有效：面对困惑度检测防御，SI-Attack 仍保持 71.13% 的 ASR

亮点与洞察¶

发现了一个深刻的安全漏洞：Shuffle Inconsistency 揭示了 MLLMs 理解能力和安全能力之间的根本性脱节——安全对齐训练未能覆盖打乱后的有害指令空间，这一发现对 AI 安全研究具有重要启示
方法极其简洁：不需要对抗扰动优化、不需要白盒模型访问、不需要精心设计的 prompt，仅通过随机打乱+查询优化即可实现高效攻击
对闭源商用模型效果显著：GPT-4o 上 ASR 从 20.77% 提升到 68.57%，Gemini-1.5-Pro 上从 21.07% 提升到 71.25%，表明商用模型的外部安全护栏同样存在该漏洞
PCA 可视化提供了机理解释：通过可视化开源模型的隐藏状态，清晰展示了模型对原始和打乱输入有不同的内部表示，说明安全对齐训练确实未覆盖此分布
"优势即弱点"的哲学洞察：当安全能力无法匹配优秀的理解能力时，理解能力反而成为可被利用的弱点

局限性¶

方法相对简单，防御难度不高：一旦该漏洞被发现，防御方应能通过在安全对齐训练中加入打乱样本来弥补
依赖外部毒性评判模型：需要 ChatGPT-3.5 做毒性评判，增加了成本和对外部 API 的依赖
打乱策略较为固定：仅探索了词级和 patch 级打乱，更灵活的打乱粒度（句子级、字符级、语义级）未充分探索
评估局限：毒性评分由 ChatGPT-3.5 自动评判，可能与人类判断存在偏差
缺乏对最新防御方法的对抗评估：如对抗训练、输入预处理等新型防御机制下的表现未知
伦理风险：论文发布了完整的攻击方法，可能被恶意利用

评分¶

维度	分数 (1-5)	说明
创新性	⭐⭐⭐⭐	发现了 Shuffle Inconsistency 这一新颖安全漏洞，视角独到
技术深度	⭐⭐⭐	方法本身简洁，但分析充分（PCA 可视化、多维度消融）
实验充分度	⭐⭐⭐⭐⭐	三大基准、8 个模型、详细消融、自适应攻击实验，非常全面
写作质量	⭐⭐⭐⭐	结构清晰，动机阐述有力，图表丰富
实用价值	⭐⭐⭐⭐	对 AI 安全研究有重要警示意义，方法简单易复现
综合	⭐⭐⭐⭐	出色的安全分析与红队测试工作，发现有深度，实验扎实

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评