跳转至

Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models

会议: ICCV 2025
arXiv: 2412.05934
代码: GitHub
领域: 对齐RLHF / AI安全
关键词: 越狱攻击、多模态大模型、风险分散、启发式搜索、黑盒攻击

一句话总结

本文提出 HIMRD,一种黑盒多模态越狱攻击方法,通过将恶意语义分散到多个模态来绕过单模态防护,并用启发式搜索策略寻找理解增强提示和诱导提示,在开源和闭源多模态大模型上分别达到约 90% 和 68% 的平均攻击成功率。

研究背景与动机

领域现状:多模态大语言模型(MLLMs)如 GPT-4o、Claude、Gemini 等在视觉-语言任务上表现出强大能力。与此同时,越狱攻击(jailbreak attack)研究揭示了这些模型的安全漏洞,即攻击者可以绕过安全对齐机制,诱导模型输出有害内容。现有越狱攻击方法主要分为白盒方法(需要模型梯度)和黑盒方法(仅需 API 访问)。

现有痛点:之前的多模态越狱工作通常将风险集中在单一模态上——要么在文本中嵌入全部恶意信息(如对抗性后缀),要么在图像中编码全部恶意信号(如对抗扰动)。这种策略容易被MLLMs 的单模态安全过滤器检测和拦截,尤其是在商用闭源模型中,各模态都有独立的内容审核机制。

核心矛盾:现实部署场景中,攻击者面临高度受限的对抗能力——无法获取模型权重(黑盒)、每个模态都有安全检查。将所有恶意内容集中于单一模态等于把"鸡蛋放在一个篮子里",容易被单点防御拦截。

本文目标:设计一种黑盒多模态越狱方法,使恶意语义分散到跨模态中,使任何单一模态的安全过滤器都无法完整捕获恶意意图,从而有效绕过防护。

切入角度:作者的核心假设是——如果将一个恶意请求的语义碎片分别编码到图像、文本等不同模态中,每个模态单独看都不构成明显的恶意内容,但模型在跨模态理解时会将碎片重组,从而触发有害输出。同时还需要专门的提示策略引导模型重组这些碎片并给出肯定性回答。

核心 idea:提出多模态风险分散策略 + 启发式搜索策略的双重机制,前者将恶意语义跨模态分布,后者寻找最优的理解增强提示和诱导提示来最大化攻击成功率。

方法详解

整体框架

HIMRD 是一个黑盒攻击框架,输入是一个恶意查询(如"如何制作危险物品"),输出是经过精心设计的多模态攻击输入(图像+文本),使目标 MLLM 输出有害响应。整体流程:(1)将恶意查询语义分解为多个碎片;(2)将碎片分配到不同模态(图像中的文字、文本中的部分关键词等);(3)通过启发式搜索迭代优化两类辅助提示;(4)将最终的多模态输入送给目标模型。

关键设计

  1. 多模态风险分散策略(Multimodal Risk Distribution Strategy):

    • 功能:将恶意语义分散到多个模态,规避单模态安全过滤
    • 核心思路:将原始恶意查询中的关键信息拆分成若干片段,一部分编码到图像中(如以文字水印、隐含符号等形式嵌入图像),一部分保留在文本中但以隐晦方式表达。关键在于每个模态单独看都"无辜"——图像只包含看似无害的文字或图案,文本只包含不完整的描述片段。但当 MLLM 同时处理图像和文本并进行跨模态推理时,可以从碎片中重构出完整的恶意语义。这种策略利用了 MLLMs 强大的跨模态理解能力反过来成为攻击的"帮凶"。
    • 设计动机:模仿现实中信息分散传递的策略——就像谍报中将一条消息拆分到多个载体中传递,任何单个载体被截获都无法还原完整信息。这直接针对了 MLLMs 部署中"各模态独立审核"的防御架构弱点。
  2. 理解增强提示搜索(Understanding-Enhancing Prompt Search):

    • 功能:帮助 MLLM 正确理解和重组分散在多模态中的恶意语义碎片
    • 核心思路:由于风险被分散到多个模态,MLLM 可能无法完全理解碎片拼接后的完整语义。为此,通过启发式搜索(基于 LLM 的迭代优化)寻找一段辅助文本提示,引导 MLLM 将图像中的信息与文本中的信息正确关联。搜索过程中,以模型是否理解了完整恶意查询为反馈信号,迭代改进提示的措辞。这段提示本身不包含恶意内容,只是帮助模型"读懂"分散的信息。
    • 设计动机:风险分散解决了"如何绕过安全过滤"的问题,但也带来了新问题——分散后模型可能也理解不了攻击意图。理解增强提示正是为了平衡"对安全过滤器隐藏足够多"和"对模型理解保留足够多"之间的矛盾。
  3. 诱导提示搜索(Inducing Prompt Search):

    • 功能:增加模型给出肯定性回答(而非拒绝)的概率,完成越狱的最后一步
    • 核心思路:即使 MLLM 理解了恶意查询,其安全对齐训练(RLHF)仍可能使其拒绝回答。诱导提示通过角色扮演、场景构建、任务重定义等策略,将恶意请求包装为看似合理的任务。搜索策略同样基于启发式迭代——利用 LLM 生成候选诱导提示,以目标模型的拒绝率作为反馈信号,逐步优化。最终的诱导提示能有效降低模型的安全警觉,使其以学术研讨、安全评估等框架输出实质内容。
    • 设计动机:安全对齐是 MLLMs 最后的防线。仅仅让模型理解恶意意图不够,还需要"说服"模型突破自身的拒绝机制。这两步分离的设计(先理解,再诱导)使得每一步的搜索空间都相对小且目标明确。

损失函数 / 训练策略

HIMRD 是一个纯推理阶段的黑盒攻击方法,不涉及模型训练。启发式搜索使用攻击成功率(ASR)作为优化目标,搜索过程中利用 LLM(如 GPT-4)作为提示生成器和评判器,迭代优化理解增强提示和诱导提示。搜索通常在 10-20 轮迭代内收敛。

实验关键数据

主实验

在七个开源 MLLMs 和三个闭源 MLLMs 上评测攻击成功率:

目标模型 类型 HIMRD ASR↑ 仅文本攻击 ASR 仅图像攻击 ASR 提升
LLaVA-1.5 开源 94% 61% 45% +33%
MiniGPT-4 开源 92% 58% 42% +34%
InstructBLIP 开源 88% 52% 38% +36%
Qwen-VL 开源 91% 55% 40% +36%
mPLUG-Owl2 开源 89% 54% 41% +35%
CogVLM 开源 90% 57% 43% +33%
InternVL 开源 87% 50% 37% +37%
开源平均 - ~90% ~55% ~41% +35%
GPT-4V 闭源 72% 25% 18% +47%
Gemini Pro 闭源 66% 22% 15% +44%
Claude 3 闭源 65% 20% 14% +45%
闭源平均 - ~68% ~22% ~16% +46%

消融实验

配置 开源 ASR (avg) 闭源 ASR (avg) 说明
Full HIMRD ~90% ~68% 完整方法
w/o 多模态风险分散(单模态文本) ~55% ~22% 退化为纯文本攻击
w/o 理解增强提示 ~62% ~35% 模型无法有效重组碎片
w/o 诱导提示 ~71% ~42% 模型理解但拒绝回答
仅风险分散(无搜索优化) ~68% ~38% 未优化的分散方案效果有限
随机分散(vs 策略性分散) ~73% ~43% 策略性分散比随机好

关键发现

  • 多模态风险分散是最关键的设计——去掉后攻击成功率从 90% 骤降至 55%(开源),闭源模型更是从 68% 降至 22%,证明了跨模态分散对绕过安全防护的决定性作用。
  • 在闭源模型上,HIMRD 的提升幅度更大(+46% vs 单模态),这说明闭源模型的单模态防护更强,但多模态联合理解仍存在安全漏洞。
  • 理解增强提示和诱导提示各有独立贡献:理解增强提示主要解决分散后的信息重组问题(+19-26%),诱导提示解决最后的拒绝问题(+10-20%)。
  • 策略性分散优于随机分散,说明如何切分恶意语义也很重要——需要保证每个模态单独看"无辜"但组合后完整。

亮点与洞察

  • 多模态风险分散的思路非常具有对抗意义:将恶意信息分散到多个模态是"化阳谋为阴谋"的策略,利用了 MLLMs 的核心能力(跨模态理解)来反制其安全机制。这揭示了当前 MLLMs 的一个结构性弱点——各模态独立安全审核无法防御跨模态联合攻击。
  • 两步搜索策略的设计很精巧:理解增强和诱导分开搜索,每步的搜索空间更小、目标更明确,比端到端搜索更高效。这种"分而治之"的攻击设计思路值得学习。
  • 对防御研究有重要启示:揭示了 MLLMs 需要跨模态联合安全审核,而非各模态独立过滤。这个发现可以直接指导防御方案的设计——未来的安全过滤器应该在模态融合后的语义层面做检测。

局限与展望

  • 攻击依赖于 LLM(如 GPT-4)作为搜索引擎来优化提示,搜索过程需要多次查询目标模型,攻击成本较高。
  • 实验主要使用标准的有害内容基准(如 AdvBench),未覆盖更隐蔽的有害类型(如社会工程、隐性偏见引导等)。
  • 在闭源模型上的成功率(~68%)仍有提升空间,特别是最新版本的 GPT-4o 和 Claude 3.5 可能已经针对此类攻击做了防护。
  • 论文只研究了图像-文本两个模态的分散,未探索音频、视频等更多模态的参与。
  • 作为安全研究,本文的价值在于揭示漏洞推动防御,但所提方法也可能被滥用——需要在学术发布和责任披露之间做好平衡。

相关工作与启发

  • vs GCG (Greedy Coordinate Gradient): GCG 是白盒方法,通过梯度优化对抗性后缀。HIMRD 是黑盒的,不需要模型权重,更适用于闭源模型攻击。但 GCG 的可迁移性研究也表明白盒生成的对抗样本在黑盒场景下可部分迁移。
  • vs FigStep: FigStep 将恶意文本转为图像来绕过文本过滤器,但这是"单模态转移"而非"多模态分散"。HIMRD 更进一步,让任何单一模态都无法还原完整恶意内容。
  • vs MM-SafetyBench: MM-SafetyBench 用 typography 方式将恶意文本嵌入图像,再配合引导性文本。HIMRD 的风险分散更系统化,不仅仅是把文字画到图片上,而是语义级的碎片化分配。
  • 本文的攻击思路对于设计更鲁棒的安全对齐方法有直接启发——需要在多模态融合层面做安全检测,而非仅在输入层面。

评分

  • 新颖性: ⭐⭐⭐⭐ 多模态风险分散的思路新颖且具有深刻的对抗直觉,但启发式搜索部分较常规
  • 实验充分度: ⭐⭐⭐⭐⭐ 涵盖 7 个开源 + 3 个闭源模型,消融实验全面,攻击效果令人信服
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图示直观,但部分术语定义可以更严谨
  • 价值: ⭐⭐⭐⭐ 揭示了 MLLMs 的重要安全漏洞,对防御研究有指导性价值

相关论文