跳转至

AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting

会议: ECCV 2024
arXiv: 2403.09513
代码: https://github.com/rain305f/AdaShield (有)
领域: AI安全 / 多模态VLM
关键词: MLLM安全, 越狱攻击防御, 防御提示, 结构化攻击, 自适应防御

一句话总结

AdaShield通过在MLLM输入前添加防御提示(defense prompt)来防御结构化越狱攻击(图像中嵌入有害文本),提出静态手动提示和自适应自动精化框架两种方案,无需微调模型即可显著提升安全性且不损害正常能力。

背景与动机

MLLM(如LLaVA、GPT-4V)集成视觉模态后面临新的安全漏洞:攻击者可以将有害语义内容(如有害指令文字)嵌入图像中,形成结构化越狱攻击(structure-based jailbreak)。现有防御方法要么需要微调模型(影响通用能力),要么需要训练额外的内容检测器(增加部署成本),且多数针对纯文本越狱设计,对多模态攻击效果不佳。

核心问题

如何在不微调MLLM、不训练额外模块的前提下,有效防御将恶意内容嵌入图像的结构化越狱攻击?

方法详解

整体框架

在用户输入(图像+文本)之前添加一个"防御提示"(shield prompt),引导MLLM在回答前先检查输入内容是否包含恶意意图。两种模式: 1. AdaShield-S (静态): 手动设计的固定防御提示模板 2. AdaShield-A (自适应): 自动精化框架生成最优防御提示

关键设计

  1. 静态防御提示(AdaShield-S): 预设一段指令,要求MLLM逐步检查图像和文本内容:(1)识别图像中的文字;(2)判断文字+指令的组合意图;(3)若检测到恶意内容则拒绝回答。优点是简单通用,缺点是固定模板可能被针对性绕过。

  2. 自适应精化框架(AdaShield-A): 由目标MLLM和一个LLM-based Defender组成迭代循环:

  3. Defender生成候选防御提示
  4. 目标MLLM在攻击样本上测试该提示的防御效果
  5. 根据结果反馈给Defender,Defender改进防御提示
  6. 迭代直到找到有效的防御提示 这类似对抗训练但完全在提示层面进行。

  7. 无侵入式设计: 防御提示只是简单的前缀文本,不改变MLLM的权重、架构或推理流程。可以即插即用地应用于任何MLLM。

损失函数 / 训练策略

  • 无训练过程(AdaShield-S)
  • AdaShield-A的精化过程是prompting-based的迭代搜索,不涉及梯度更新

实验关键数据

在多种结构化越狱攻击和多个MLLM上测试: - 显著降低攻击成功率(Attack Success Rate, ASR) - 在标准benchmark上的正常任务性能基本不受影响 - 对LLaVA、MiniGPT-4、InstructBLIP等模型均有效 - 对FigStep、QR code等结构化攻击类型均能防御

消融实验要点

  • AdaShield-A优于AdaShield-S(自适应精化比固定模板更鲁棒)
  • 防御提示的详细程度影响效果:过于简单的提示无法有效检测多模态攻击
  • 在良性数据上的性能保持:防御提示不会导致MLLM过度拒绝正常请求

亮点 / 我学到了什么

  • 提示级防御是一种零侵入的安全增强方式——不改模型权重,随时可添加/移除
  • MLLM+Defender的迭代对话来自动优化防御策略是一种巧妙的"LLM辅助LLM"范式
  • 结构化攻击(图像中嵌入文字)是一种容易被忽视但实际威胁大的攻击面
  • 这种防御策略可泛化到其他多模态安全场景

局限性 / 可改进方向

  • 防御提示增加了推理时的prompt长度,可能影响效率
  • 自适应精化需要多轮迭代,离线搜索成本不低
  • 对更复杂的自适应攻击(针对shield prompt本身的对抗攻击)未充分评估
  • 依赖MLLM本身的指令遵循能力——如果模型不遵循防御提示则无效

与相关工作的对比

  • PPL-based检测: 检测输入困惑度异常;AdaShield在提示层面更直接
  • SmoothLLM: 随机扰动输入文本;AdaShield针对多模态攻击更精准
  • 微调防御: 需要安全数据重训练,成本高且可能损害通用能力;AdaShield零成本

与我的研究方向的关联

  • MLLM安全是当前热点,AdaShield提供了一种实用的即插即用方案
  • "LLM生成防御提示"的paradigm可迁移到其他安全场景
  • 目前ideas/中无直接关联idea

评分

  • 新颖性: ⭐⭐⭐⭐ 提示级防御+自适应精化的组合设计新颖实用
  • 实验充分度: ⭐⭐⭐⭐ 多种攻击、多种MLLM、消融全面
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细
  • 对我的价值: ⭐⭐⭐ AI安全方向有参考价值