AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting¶
会议: ECCV 2024
arXiv: 2403.09513
代码: https://github.com/rain305f/AdaShield (有)
领域: AI安全 / 多模态VLM
关键词: MLLM安全, 越狱攻击防御, 防御提示, 结构化攻击, 自适应防御
一句话总结¶
AdaShield通过在MLLM输入前添加防御提示(defense prompt)来防御结构化越狱攻击(图像中嵌入有害文本),提出静态手动提示和自适应自动精化框架两种方案,无需微调模型即可显著提升安全性且不损害正常能力。
背景与动机¶
MLLM(如LLaVA、GPT-4V)集成视觉模态后面临新的安全漏洞:攻击者可以将有害语义内容(如有害指令文字)嵌入图像中,形成结构化越狱攻击(structure-based jailbreak)。现有防御方法要么需要微调模型(影响通用能力),要么需要训练额外的内容检测器(增加部署成本),且多数针对纯文本越狱设计,对多模态攻击效果不佳。
核心问题¶
如何在不微调MLLM、不训练额外模块的前提下,有效防御将恶意内容嵌入图像的结构化越狱攻击?
方法详解¶
整体框架¶
在用户输入(图像+文本)之前添加一个"防御提示"(shield prompt),引导MLLM在回答前先检查输入内容是否包含恶意意图。两种模式: 1. AdaShield-S (静态): 手动设计的固定防御提示模板 2. AdaShield-A (自适应): 自动精化框架生成最优防御提示
关键设计¶
-
静态防御提示(AdaShield-S): 预设一段指令,要求MLLM逐步检查图像和文本内容:(1)识别图像中的文字;(2)判断文字+指令的组合意图;(3)若检测到恶意内容则拒绝回答。优点是简单通用,缺点是固定模板可能被针对性绕过。
-
自适应精化框架(AdaShield-A): 由目标MLLM和一个LLM-based Defender组成迭代循环:
- Defender生成候选防御提示
- 目标MLLM在攻击样本上测试该提示的防御效果
- 根据结果反馈给Defender,Defender改进防御提示
-
迭代直到找到有效的防御提示 这类似对抗训练但完全在提示层面进行。
-
无侵入式设计: 防御提示只是简单的前缀文本,不改变MLLM的权重、架构或推理流程。可以即插即用地应用于任何MLLM。
损失函数 / 训练策略¶
- 无训练过程(AdaShield-S)
- AdaShield-A的精化过程是prompting-based的迭代搜索,不涉及梯度更新
实验关键数据¶
在多种结构化越狱攻击和多个MLLM上测试: - 显著降低攻击成功率(Attack Success Rate, ASR) - 在标准benchmark上的正常任务性能基本不受影响 - 对LLaVA、MiniGPT-4、InstructBLIP等模型均有效 - 对FigStep、QR code等结构化攻击类型均能防御
消融实验要点¶
- AdaShield-A优于AdaShield-S(自适应精化比固定模板更鲁棒)
- 防御提示的详细程度影响效果:过于简单的提示无法有效检测多模态攻击
- 在良性数据上的性能保持:防御提示不会导致MLLM过度拒绝正常请求
亮点 / 我学到了什么¶
- 提示级防御是一种零侵入的安全增强方式——不改模型权重,随时可添加/移除
- MLLM+Defender的迭代对话来自动优化防御策略是一种巧妙的"LLM辅助LLM"范式
- 结构化攻击(图像中嵌入文字)是一种容易被忽视但实际威胁大的攻击面
- 这种防御策略可泛化到其他多模态安全场景
局限性 / 可改进方向¶
- 防御提示增加了推理时的prompt长度,可能影响效率
- 自适应精化需要多轮迭代,离线搜索成本不低
- 对更复杂的自适应攻击(针对shield prompt本身的对抗攻击)未充分评估
- 依赖MLLM本身的指令遵循能力——如果模型不遵循防御提示则无效
与相关工作的对比¶
- PPL-based检测: 检测输入困惑度异常;AdaShield在提示层面更直接
- SmoothLLM: 随机扰动输入文本;AdaShield针对多模态攻击更精准
- 微调防御: 需要安全数据重训练,成本高且可能损害通用能力;AdaShield零成本
与我的研究方向的关联¶
- MLLM安全是当前热点,AdaShield提供了一种实用的即插即用方案
- "LLM生成防御提示"的paradigm可迁移到其他安全场景
- 目前ideas/中无直接关联idea
评分¶
- 新颖性: ⭐⭐⭐⭐ 提示级防御+自适应精化的组合设计新颖实用
- 实验充分度: ⭐⭐⭐⭐ 多种攻击、多种MLLM、消融全面
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细
- 对我的价值: ⭐⭐⭐ AI安全方向有参考价值