AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting¶

会议: ECCV 2024
arXiv: 2403.09513
代码: https://github.com/rain305f/AdaShield (有)
领域: AI安全 / 多模态VLM
关键词: MLLM安全, 越狱攻击防御, 防御提示, 结构化攻击, 自适应防御

一句话总结¶

AdaShield通过在MLLM输入前添加防御提示(defense prompt)来防御结构化越狱攻击（图像中嵌入有害文本），提出静态手动提示和自适应自动精化框架两种方案，无需微调模型即可显著提升安全性且不损害正常能力。

背景与动机¶

MLLM（如LLaVA、GPT-4V）集成视觉模态后面临新的安全漏洞：攻击者可以将有害语义内容（如有害指令文字）嵌入图像中，形成结构化越狱攻击(structure-based jailbreak)。现有防御方法要么需要微调模型（影响通用能力），要么需要训练额外的内容检测器（增加部署成本），且多数针对纯文本越狱设计，对多模态攻击效果不佳。

核心问题¶

如何在不微调MLLM、不训练额外模块的前提下，有效防御将恶意内容嵌入图像的结构化越狱攻击？

方法详解¶

整体框架¶

在用户输入（图像+文本）之前添加一个"防御提示"(shield prompt)，引导MLLM在回答前先检查输入内容是否包含恶意意图。两种模式： 1. AdaShield-S (静态): 手动设计的固定防御提示模板 2. AdaShield-A (自适应): 自动精化框架生成最优防御提示

关键设计¶

静态防御提示(AdaShield-S): 预设一段指令，要求MLLM逐步检查图像和文本内容：(1)识别图像中的文字；(2)判断文字+指令的组合意图；(3)若检测到恶意内容则拒绝回答。优点是简单通用，缺点是固定模板可能被针对性绕过。
自适应精化框架(AdaShield-A): 由目标MLLM和一个LLM-based Defender组成迭代循环：
Defender生成候选防御提示
目标MLLM在攻击样本上测试该提示的防御效果
根据结果反馈给Defender，Defender改进防御提示
迭代直到找到有效的防御提示这类似对抗训练但完全在提示层面进行。
无侵入式设计: 防御提示只是简单的前缀文本，不改变MLLM的权重、架构或推理流程。可以即插即用地应用于任何MLLM。

损失函数 / 训练策略¶

无训练过程（AdaShield-S）
AdaShield-A的精化过程是prompting-based的迭代搜索，不涉及梯度更新

实验关键数据¶

在多种结构化越狱攻击和多个MLLM上测试： - 显著降低攻击成功率（Attack Success Rate, ASR） - 在标准benchmark上的正常任务性能基本不受影响 - 对LLaVA、MiniGPT-4、InstructBLIP等模型均有效 - 对FigStep、QR code等结构化攻击类型均能防御

消融实验要点¶

AdaShield-A优于AdaShield-S（自适应精化比固定模板更鲁棒）
防御提示的详细程度影响效果：过于简单的提示无法有效检测多模态攻击
在良性数据上的性能保持：防御提示不会导致MLLM过度拒绝正常请求

亮点 / 我学到了什么¶

提示级防御是一种零侵入的安全增强方式——不改模型权重，随时可添加/移除
MLLM+Defender的迭代对话来自动优化防御策略是一种巧妙的"LLM辅助LLM"范式
结构化攻击（图像中嵌入文字）是一种容易被忽视但实际威胁大的攻击面
这种防御策略可泛化到其他多模态安全场景

局限性 / 可改进方向¶

防御提示增加了推理时的prompt长度，可能影响效率
自适应精化需要多轮迭代，离线搜索成本不低
对更复杂的自适应攻击（针对shield prompt本身的对抗攻击）未充分评估
依赖MLLM本身的指令遵循能力——如果模型不遵循防御提示则无效

与相关工作的对比¶

PPL-based检测: 检测输入困惑度异常；AdaShield在提示层面更直接
SmoothLLM: 随机扰动输入文本；AdaShield针对多模态攻击更精准
微调防御: 需要安全数据重训练，成本高且可能损害通用能力；AdaShield零成本

与我的研究方向的关联¶

MLLM安全是当前热点，AdaShield提供了一种实用的即插即用方案
"LLM生成防御提示"的paradigm可迁移到其他安全场景
目前ideas/中无直接关联idea

评分¶

新颖性: ⭐⭐⭐⭐ 提示级防御+自适应精化的组合设计新颖实用
实验充分度: ⭐⭐⭐⭐ 多种攻击、多种MLLM、消融全面
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述详细
对我的价值: ⭐⭐⭐ AI安全方向有参考价值