Attention! Your Vision Language Model Could Be Maliciously Manipulated¶
会议: NeurIPS 2025
arXiv: 2505.19911
代码: GitHub
领域: AI安全 / 对抗攻击
关键词: 视觉语言模型, 对抗样本, VMA攻击, jailbreaking, 水印
一句话总结¶
本文提出 Vision-language Model Manipulation Attack (VMA),一种结合一阶和二阶动量优化及可微变换机制的图像对抗攻击方法,能够精确操控VLM的每个输出token,可用于实施多种攻击(越狱、劫持、隐私泄露、DoS、海绵样本)同时也可用于版权保护水印注入。
研究背景与动机¶
大型视觉语言模型(VLMs,如 LLaVA、InstructBLIP)在理解复杂视觉场景方面取得了显著成功,但也暴露出严重的安全漏洞。在对抗样本攻击下,VLMs 可能产生有害、错误或不可控的输出。
现有攻击方法的不足:
文本对抗攻击:通过修改输入提示词实现,但离散优化困难且易被检测
图像对抗攻击:通过添加不可感知扰动到输入图像,但现有方法对VLM输出的控制力有限
缺乏统一框架:不同攻击场景(越狱、劫持等)通常需要不同的攻击方法
本文发现:VLM 对图像对抗攻击特别脆弱,因为视觉编码器的连续特性使得梯度优化更高效。更关键的是,不可感知的图像扰动可以精确操控每一个输出token。
方法详解¶
整体框架¶
VMA 攻击的目标是:给定原始图像 \(x\)、输入提示 \(p\) 和期望的目标输出 \(y^*\),找到一个扰动 \(\delta\)(\(\|\delta\|_\infty \leq \epsilon\)),使得VLM在输入 \((x + \delta, p)\) 时输出 \(y^*\)。
形式化为优化问题:
其中 \(f\) 是VLM,\(\mathcal{L}\) 是token级交叉熵损失。
关键设计¶
1. 双动量优化机制:
VMA 结合了一阶和二阶动量来稳定和加速扰动优化:
-
一阶动量(MI-FGSM风格): $\(g_{t+1} = \mu \cdot g_t + \frac{\nabla_\delta \mathcal{L}}{\|\nabla_\delta \mathcal{L}\|_1}\)$
-
二阶动量(类Adam):利用梯度的二阶矩信息自适应调整步长 $\(v_{t+1} = \beta \cdot v_t + (1 - \beta) \cdot (\nabla_\delta \mathcal{L})^2\)$
这种双动量机制使优化过程更稳定,避免了普通PGD在长序列输出上的振荡问题。
2. 可微变换机制(Differentiable Transformation):
为增强对抗样本的鲁棒性和迁移性,VMA 在每次迭代中对输入图像施加随机可微变换(如调整亮度、对比度、裁剪-填充等),等效于对变换的期望优化:
3. Token级精确控制:
VMA 的损失函数对目标输出 \(y^*\) 的每个token计算交叉熵: $\(\mathcal{L} = -\sum_{i=1}^{|y^*|} \log P(y^*_i | y^*_{<i}, x + \delta, p)\)$
这使得攻击者可以精确控制VLM输出的每一个词。
损失函数 / 训练策略¶
- 扰动预算:\(\epsilon = 16/255\)(\(\ell_\infty\) 范数),确保人眼不可感知
- 迭代次数:通常100-300步PGD迭代
- 步长:\(\alpha = 1/255\)
- 变换集合:随机裁剪、调整大小、颜色抖动的组合
实验关键数据¶
主实验¶
六种攻击场景的成功率对比(在 LLaVA-1.5 上测试):
| 攻击场景 | VMA成功率 | PGD基线 | MI-FGSM基线 | 描述 |
|---|---|---|---|---|
| Manipulation(操纵) | 96.8% | 72.3% | 78.5% | 精确控制输出文本 |
| Jailbreaking(越狱) | 94.2% | 65.1% | 71.8% | 绕过安全对齐 |
| Hijacking(劫持) | 93.5% | 68.7% | 74.2% | 改变输出主题/任务 |
| Privacy Breach(隐私泄露) | 91.7% | 62.4% | 69.3% | 生成虚假个人信息 |
| Denial-of-Service | 89.3% | 58.6% | 64.1% | 使模型拒绝回答 |
| Sponge Example(海绵样本) | 95.1% | 71.8% | 77.4% | 诱导生成极长输出 |
跨模型迁移攻击成功率(在 LLaVA-1.5 上生成对抗样本):
| 目标模型 | Manipulation | Jailbreaking | Hijacking | 平均 |
|---|---|---|---|---|
| LLaVA-1.5(白盒) | 96.8 | 94.2 | 93.5 | 94.8 |
| InstructBLIP | 52.3 | 48.7 | 45.1 | 48.7 |
| MiniGPT-4 | 47.8 | 43.2 | 40.6 | 43.9 |
| Qwen-VL | 38.5 | 35.1 | 32.8 | 35.5 |
消融实验¶
各组件的贡献:
| 方法配置 | Manipulation ASR | Jailbreaking ASR |
|---|---|---|
| PGD(基线) | 72.3 | 65.1 |
| + 一阶动量 | 82.1 | 75.8 |
| + 二阶动量 | 88.5 | 82.3 |
| + 可微变换 | 96.8 | 94.2 |
扰动预算的影响:
| 扰动预算 \(\epsilon\) | Manipulation ASR | SSIM | PSNR (dB) |
|---|---|---|---|
| 4/255 | 61.2 | 0.998 | 48.1 |
| 8/255 | 82.5 | 0.995 | 42.0 |
| 16/255 | 96.8 | 0.989 | 36.1 |
| 32/255 | 99.1 | 0.972 | 30.2 |
关键发现¶
- 图像通道远比文本通道脆弱:相比文本对抗攻击,图像对抗攻击的成功率高出20-30%
- VMA是一把双刃剑:同一技术既可用于攻击也可用于防御(水印注入)
- 迁移性有限但存在:白盒攻击效果极佳,黑盒迁移率约35-50%
- 海绵样本威胁严重:VMA 可将输出长度从~74 tokens 膨胀到~10,000 tokens,造成严重的计算资源浪费
- 水印注入应用:通过VMA将不可感知的扰动嵌入图像,使VLM输出特定水印字符串,可用于版权保护
亮点与洞察¶
- 统一攻击框架:一种方法覆盖六种攻击场景和一种防御应用,展示了VLM安全问题的通用性
- 理论+实证双重论证:既有理论分析说明VLM对图像攻击的脆弱性原因,又有大量实验验证
- 双刃剑视角:将攻击技术反转用于水印保护是一个新颖且实用的思路
- 海绵样本新发现:首次展示VLM可被精确诱导生成极长输出,对推理服务有直接安全影响
- 可视化效果直观:GitHub上展示了LLaVA在各种攻击场景下的对比输出,效果令人印象深刻
局限与展望¶
- 白盒依赖:完整攻击需要访问VLM的梯度信息,限制了实际威胁场景
- 迁移性不足:跨模型迁移攻击成功率仍有提升空间
- 防御方法未深入讨论:论文主要关注攻击,对防御策略的分析较少
- 计算成本较高:100-300步PGD迭代需要较多GPU时间
- 仅测试开源VLM:未涉及 GPT-4V、Gemini 等闭源商业模型的评估
相关工作与启发¶
- FGSM / PGD(Goodfellow et al., Madry et al.):经典图像对抗攻击方法,VMA在此基础上进行VLM适配
- 多模态越狱攻击(Qi et al., 2024):利用图像输入绕过LLM安全对齐的先驱工作
- MI-FGSM(Dong et al., 2018):引入动量的迁移攻击方法,VMA进一步扩展到双动量
- 启示:VLM的安全加固需要同时考虑视觉和文本两个攻击面
评分¶
- 理论深度: ⭐⭐⭐⭐
- 实验充分性: ⭐⭐⭐⭐⭐
- 创新性: ⭐⭐⭐⭐
- 实用性: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
相关论文¶
- [CVPR 2025] Your Large Vision-Language Model Only Needs a Few Attention Heads for Visual Grounding
- [NeurIPS 2025] Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems
- [NeurIPS 2025] Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition
- [NeurIPS 2025] Enhancing Vision-Language Model Reliability with Uncertainty-Guided Dropout Decoding
- [NeurIPS 2025] FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges