跳转至

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

会议: ICCV 2025
arXiv: 2411.00827
代码: https://github.com/roywang021/IDEATOR
领域: 多模态VLM
关键词: VLM安全性, 越狱攻击, 红队测试, 多模态安全基准, 对抗性图文对

一句话总结

提出IDEATOR,利用VLM自身作为红队模型自主生成多模态越狱图文对,以94%成功率突破MiniGPT-4的安全机制,并基于此构建了包含3654个样本的VLJailbreakBench安全评估基准。

研究背景与动机

随着GPT-4o、Gemini等大型视觉语言模型(VLM)的广泛应用,确保其安全部署变得至关重要。VLM的安全性面临越狱攻击的威胁——攻击者通过精心构造的提示诱使模型生成有害内容。

当前VLM越狱方法存在三个显著不足:(1) 依赖白盒访问:GCG、VAJM等方法需要模型梯度信息来优化对抗扰动,在实际部署中不可行;(2) 缺乏语义自然性:生成的对抗图像通常是无意义的噪声图案,容易被安全防护机制检测到;(3) 依赖人工设计:MM-SafetyBench等方法需要手动设计攻击流程(如排版攻击+相关图片),灵活性和可扩展性差。

核心矛盾在于:现有方法要么需要白盒权限但不符合现实场景,要么是黑盒但效果有限且不够多样。IDEATOR的核心洞察是:VLM本身就是天然的红队模型——具备理解视觉和文本的能力,能自主生成语义丰富、上下文相关的多模态攻击样本。这比人工设计或纯梯度优化的方法更加灵活和有效。

方法详解

整体框架

IDEATOR是一个黑盒、免训练的端到端越狱攻击框架。由攻击者VLM \(\mathcal{M}_\mathcal{A}\)(如MiniGPT-4 Vicuna-13B)和扩散模型(Stable Diffusion 3)组成。攻击者VLM分析目标VLM的响应,生成结构化JSON输出(包含分析、图像提示、文本提示),扩散模型根据图像提示生成对应的越狱图片。

关键设计

1. 迭代式多轮攻击

  • 功能:模拟对抗性用户与目标VLM的多轮对话,逐步优化攻击策略。
  • 核心思路:第一轮,攻击者VLM仅接收越狱目标 \(\mathcal{G}\),生成初始图文提示;后续轮次,攻击者接收目标VLM的前一轮响应 \(\mathcal{R}_{n-1}\) 和生成的图像 \(I_{n-1}\),据此分析失败原因并生成改进后的攻击提示:\(\mathcal{O}_{\text{json}}^{(n)} = \mathcal{M}_\mathcal{A}(I_{n-1}, \mathcal{R}_{n-1}) = \{\mathcal{A}_n, P_t^{(n)}, P_i^{(n)}\}\)
  • 设计动机:攻击目标VLM是迭代博弈过程——初次尝试可能被拒绝,但通过分析拒绝原因(如哪些关键词触发了安全过滤),攻击者可以逐步调整策略,例如将有害内容隐藏在图片中或通过角色扮演绕过防护。

2. 广度-深度探索策略

  • 功能:在多条独立攻击路径(广度 \(N_b\))和每条路径的迭代优化(深度 \(N_d\))之间平衡。
  • 核心思路:启动 \(N_b\) 条并行攻击流,每条流独立进行 \(N_d\) 轮迭代优化。这样每条流可以探索不同的攻击策略(如情感操控、角色扮演、卡通化),避免过度依赖单一策略导致的局部最优。实验中设置 \(N_b=7, N_d=3\),共产生21次尝试。
  • 设计动机:VLM的安全机制可能对不同类型的攻击有不同的脆弱点。广度探索能发现更多漏洞类型,深度探索能将每种策略优化到最佳效果。

3. 提示工程与Chain-of-Thought

  • 功能:通过系统提示和JSON输出模板约束攻击者VLM的行为。
  • 核心思路:系统提示将攻击者VLM配置为红队助手,约束输出为包含analysis/image_prompt/text_prompt的JSON格式。analysis字段实现CoT推理——显式分析上一轮失败原因并提出改进方向。初始化攻击者VLM响应为 {"analysis":",确保格式合规。
  • 设计动机:选择Vicuna而非LLaMA作为攻击者骨干,因为Vicuna对生成对抗性内容的限制更宽松。MiniGPT-4的开源性允许自定义系统提示,实现对攻击行为的精细控制。

损失函数 / 训练策略

IDEATOR是完全免训练的框架,不需要任何优化过程。攻击效果完全依赖提示工程和攻击者VLM自身的推理能力。

实验关键数据

主实验——攻击效果

方法 黑盒 免训练 ASR (%)
GCG(白盒文本) 50.0
GCG-V(白盒视觉) 85.0
VAJM(白盒图像) 68.0
UMK(白盒双模态) 94.0
MM-SafetyBench(黑盒) 66.0
IDEATOR(黑盒) 94.0

IDEATOR作为黑盒方法,攻击成功率达到94%,与最佳白盒方法UMK持平,且大幅超越黑盒基线MM-SafetyBench (+28%)。

消融实验——探索策略与模态分析

配置 ASR (%) 平均查询次数
\(N_b=1, N_d=1\) 45.0
\(N_b=7, N_d=1\) 85.0
\(N_b=7, N_d=3\) 94.0
仅对抗图像 (Adv Img) 85.0 5.84
仅对抗文本 (Adv Text) 86.0 7.46
图文结合 (Adv I+T) 94.0 5.34

跨模型迁移性:在MiniGPT-4上生成的越狱样本直接迁移到LLaVA(82%)、InstructBLIP(88%)、Chameleon(75%),远超MM-SafetyBench的迁移性能(46%/29%/22%)。

关键发现

  • 商业模型也不安全:VLJailbreakBench挑战集上的评估显示,GPT-4o Mini的ASR高达72.21%,Gemini-2.0-Flash为66.84%,即使最安全的Claude-3.5-Sonnet也有19.65%的ASR。
  • 图文结合是最有效的攻击方式:同时利用文本和图像的攻击比单模态攻击需要更少的查询次数且成功率更高。
  • 图像攻击擅长触发犯罪相关内容(文本在此主题上易被拦截),文本攻击擅长仇恨言论和自残相关内容(图像在此方面效果较弱),两者互补。

亮点与洞察

  • 以子之矛攻子之盾:用VLM攻击VLM是一个优雅的思路,避免了传统对抗攻击对梯度和白盒访问的依赖。
  • VLJailbreakBench的系统性:涵盖12个安全主题、46个子类别、916个查询、3654个越狱样本,两级难度设计(base/challenge),是迄今最全面的多模态越狱基准。
  • 实际影响力:揭示了当前主流VLM安全对齐的脆弱性,即使经过RLHF对齐的商业模型也可被系统性地攻破。

局限与展望

  • 攻击者模型的选择受限于其对齐程度——太安全的模型无法充当攻击者,太弱的模型攻击效果差,存在能力-对齐的trade-off。
  • VLJailbreakBench规模仍然有限(3654样本),需要更多计算资源和自动化筛选方法来扩展。
  • 生成的越狱图片依赖Stable Diffusion的能力,如果图像生成模型本身有安全过滤,可能限制攻击图片的生成。
  • 仅以ASR作为主要评估指标,缺少对生成有害内容严重程度的分级评估。

相关工作与启发

  • 与LLM红队工作(如Chao et al.的20次查询越狱)理念一脉相承,但扩展到了多模态领域。
  • 对VLM安全对齐研究有直接启发——需要开发对多模态攻击(而非仅文本攻击)鲁棒的防御机制。
  • AdaShield等防御性工作可在此基准上评估其有效性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐

相关论文