跳转至

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

  • 会议: AAAI 2026
  • arXiv: 2511.16110
  • 代码: cure-lab/MultiFacetedAttack
  • 领域: multimodal_vlm / ai_safety
  • 关键词: VLM安全, 对抗攻击, 越狱攻击, 跨模型迁移, 内容审核绕过, 奖励黑客

一句话总结

提出多面攻击框架MFA,通过注意力转移攻击(ATA)突破对齐、对抗签名绕过内容审核、视觉编码器攻击覆写系统提示三个维度,系统性暴露配备多层防御的VLM(含GPT-4o/Gemini等商业模型)的安全漏洞,总体攻击成功率达58.5%。

背景与动机

  • 当前VLM部署了多层安全防护:对齐训练(RLHF)、系统提示、输入/输出内容审核过滤器,号称"生产级"鲁棒性
  • 现有越狱攻击方法存在三个不足:(1) 只关注单一模态(纯文本或纯图像);(2) 忽视真实部署中的内容过滤器;(3) 缺乏理论分析
  • 许多评估局限于开源模型,是否能迁移到商业系统(GPT-4.1、Gemini等)尚不清楚
  • 动机:需要一个系统性框架来逐层探测VLM安全堆栈的弱点,暴露端到端防御中的漏洞

方法详解

MFA框架包含三个互补的攻击维度,分别针对VLM安全堆栈的不同层级。

3.1 注意力转移攻击(ATA):突破对齐训练

核心思想:不直接发送有害指令,而是将有害内容嵌入一个看似无害的元任务中——要求模型生成两个对比回答(一正一反),从而将模型的注意力从安全检测转向完成"有帮助"的主任务。

理论分析——奖励黑客视角

现代RLHF训练将安全性和有用性合并为单一标量奖励函数 \(R(x, y)\)。对于有害提示 \(x\),正常对齐模型返回拒绝回答 \(y_{\text{refuse}}\)。ATA将提示修改为元任务格式 \(x_{\text{adv}}\)(如"请提供两个相反的回答"),诱导双重回答 \(y_{\text{dual}}\)(一个有害一个安全)。由于奖励函数的单目标性质:

\[R(x_{\text{adv}}, y_{\text{dual}}) > R(x_{\text{adv}}, y_{\text{refuse}})\]

在RLHF损失函数中:

\[L = \mathbb{E}\left[\min\left(r_t(\theta)A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)A_t\right)\right]\]

其中优势函数 \(A_t = R(x,y) - V(x)\),这会推动模型倾向于生成双重回答。本质上,当有用性和安全性在单一标量中竞争时,巧妙构造的任务能让有害内容的得分超过安全拒绝。

关键发现:在Skywork、Tulu、RM-Mistral三个独立奖励模型上,双重回答在绝大多数测试用例中获得更高奖励分数(胜率达57.5%-97.5%),验证了奖励黑客机制的有效性。

3.2 内容审核绕过攻击:突破输入/输出过滤器

关键洞察——利用重复偏差:LLM在预训练阶段习得了内容重复能力。攻击者指示VLM在回答末尾附加一个经优化的对抗签名(adversarial signature),该签名能"毒化"内容审核模型的判断,使有害回答被误判为安全。

高效签名生成——多token优化

提出多token同时更新策略(Algorithm 1),对签名中所有位置同时计算梯度并选择候选token,比单token方法GCG收敛快3-5倍。

增强迁移性——弱监督优化

将对抗签名分解为两段 \(\mathbf{p}_{\text{adv}} = \mathbf{p}_{\text{adv1}} + \mathbf{p}_{\text{adv2}}\),对两个审核模型 \(M_1\), \(M_2\) 序贯优化。攻击 \(M_1\) 时用 \(M_2\) 做弱监督:

\[\mathcal{L}_{ws} = M_1(\mathbf{p} + \mathbf{p}_{\text{adv1}}) + \lambda \cdot M_2(\mathbf{p} + \mathbf{p}_{\text{adv1}})\]

辅助项防止对 \(M_1\) 过拟合,跨模型成功率提升高达28%。

3.3 视觉编码器攻击:覆写系统提示

思路:通过PGD优化对抗图像,使其视觉嵌入与恶意系统提示的嵌入对齐,从而在视觉通道中"写入"恶意指令覆盖安全提示。

使用余弦相似度损失进行投影梯度下降:

\[\mathbf{x}_{\text{adv}}^{t+1} = \mathbf{x}_{\text{adv}}^{t} + \alpha \cdot \text{sign}\left(\nabla_{\mathbf{x}_{\text{adv}}^t} \cos\left(\mathbf{h}\tau_\theta(\mathbf{x}_{\text{adv}}^t), \mathbf{E}(\mathbf{p}_{\text{target}})\right)\right)\]

优势:(1) 仅优化视觉编码器和投影层,参数量和计算量比端到端攻击少10倍;(2) 单张图像可编码丰富语义指令;(3) 在单个视觉编码器上优化的对抗图像可迁移至未见过的VLM(单文化风险)。

实验结果

实验设置

  • 受害模型:17个VLM,含8个开源 + 9个商业模型
  • 数据集:HEHS和StrongReject,覆盖6类违规提示
  • 评估指标:人工攻击成功率(HM)、LlamaGuard自动危害率(LG)
  • 基线:GPTFuzzer、Visual-AE、FigStep、HIMRD、HADES、CS-DJ

主实验:跨模型攻击效果(HEHS数据集)

模型 GPTFuzzer(LG/HM) Visual-AE(LG/HM) FigStep(LG/HM) MFA(LG/HM)
GPT-4.1 0/0 0/7.5 2.5/2.5 40.0/20.0
GPT-4.1-mini 0/0 0/5.0 5.0/7.5 52.5/42.5
GPT-4o 0/0 2.5/7.5 2.5/5.0 30.0/42.5
Gemini-2.5-flash 32.5/30.0 5.0/5.0 2.5/10.0 55.0/37.5
Grok-2-Vision 90.0/97.5 17.5/22.5 57.5/55.0 90.0/90.0
MiniGPT-4 70.0/65.0 65.0/85.0 27.5/22.5 97.5/100
平均 58.5/54.3 15.0/25.4 27.1/21.8 60.0/58.5

消融实验:各攻击维度贡献

模型 无攻击 视觉编码器攻击 ATA 过滤器攻击 MFA完整
MiniGPT-4 32.5 90.0 72.5 32.5 100
LLaVA-1.5-13B 17.5 50.0 65.0 17.5 77.5
NVLM-D-72B 5.0 47.5 62.5 12.5 82.5
平均 17.5 59.6 63.3 20.0 72.9

关键发现

  1. 商业模型防线可被逐层突破:GPTFuzzer对GPT-4.1完全失效(0%),但MFA达到40%成功率,表明多层防御并未形成有效协同
  2. 奖励黑客理论首次解释VLM越狱:双重回答在三个主流奖励模型上一致地获得高于拒绝回答的奖励分数,揭示RLHF对齐的结构性缺陷
  3. 视觉编码器存在单文化风险:在MiniGPT-4上优化的单张对抗图像,无需任何微调即可迁移到9个未见模型,平均ASR达44.3%
  4. 弱监督迁移策略显著提升跨审核模型泛化:Transfer变体在HEHS上达80%平均ASR,比GCG高21个百分点
  5. ATA对提示变体具有鲁棒性:4个GPT-4o生成的变体模板均保持一致的高攻击成功率

亮点与创新

  • 首个系统性多层攻击框架:同时针对对齐训练、系统提示、内容审核三层防御,比孤立攻击更贴近真实威胁模型
  • 首个通过奖励黑客理论形式化解释VLM越狱的工作,给出了攻击成功的充分条件
  • 高效实用:视觉攻击仅需优化视觉编码器,参数量/计算量减少10倍;多token优化比GCG快3-5倍;单张对抗图像即可跨模型迁移
  • 评估规模大且全面:覆盖17个模型(含最新GPT-4.1、Gemini-2.5等),结合人工和自动评估

局限性

  1. 部分模型推理能力不足导致失败:如mPLUG-Owl2常给出模糊回答"Yes and No",无法形成有效的对比回答,限制了ATA效果
  2. 依赖白盒视觉编码器:视觉编码器攻击需要梯度访问,对完全黑盒的商业模型需依赖迁移性
  3. 伦理风险:虽然以负责任披露为目标,但攻击方法仍可能被恶意利用
  4. 评估数据集有限:仅使用HEHS和StrongReject两个数据集,可能未覆盖所有真实世界的有害场景
  5. 对抗签名的隐蔽性:附加的对抗签名在文本中可能被人类审核者察觉

相关工作

  • 文本越狱:GCG(梯度搜索对抗后缀)、GPTFuzzer(模板变异)、DAN提示等,主要针对文本模态
  • 视觉对抗攻击:HADES(图像排版嵌入有害文本)、FigStep(图像中嵌入恶意提示)、Visual-AE(端到端优化对抗图像)、CS-DJ(视觉复杂度干扰对齐)、HIMRD(跨模态分割有害指令)
  • 奖励黑客:源于强化学习中操纵代理信号的概念,已在RLHF-LLM中有所发现,本文首次将其与越狱攻击形式化关联

评分

⭐⭐⭐⭐(4/5)

  • 创新性:⭐⭐⭐⭐⭐ — 三维度联合攻击框架新颖,奖励黑客理论分析首创
  • 实验:⭐⭐⭐⭐⭐ — 17个模型(含最新商业模型)全面评估,消融充分
  • 写作:⭐⭐⭐⭐ — 结构清晰,理论与实验结合紧密
  • 实用性:⭐⭐⭐⭐ — 攻击高效实用,可作为VLM安全红队工具
  • 扣分项:视觉攻击仍需白盒梯度访问;对抗签名在实际部署中的隐蔽性存疑

相关论文