Attention! Your Vision Language Model Could Be Maliciously Manipulated¶

会议: NeurIPS 2025
arXiv: 2505.19911
代码: GitHub
领域: AI安全 / 对抗攻击
关键词: 视觉语言模型, 对抗样本, VMA攻击, jailbreaking, 水印

一句话总结¶

本文提出 Vision-language Model Manipulation Attack (VMA)，一种结合一阶和二阶动量优化及可微变换机制的图像对抗攻击方法，能够精确操控VLM的每个输出token，可用于实施多种攻击（越狱、劫持、隐私泄露、DoS、海绵样本）同时也可用于版权保护水印注入。

研究背景与动机¶

大型视觉语言模型（VLMs，如 LLaVA、InstructBLIP）在理解复杂视觉场景方面取得了显著成功，但也暴露出严重的安全漏洞。在对抗样本攻击下，VLMs 可能产生有害、错误或不可控的输出。

现有攻击方法的不足：

文本对抗攻击：通过修改输入提示词实现，但离散优化困难且易被检测

图像对抗攻击：通过添加不可感知扰动到输入图像，但现有方法对VLM输出的控制力有限

缺乏统一框架：不同攻击场景（越狱、劫持等）通常需要不同的攻击方法

本文发现：VLM 对图像对抗攻击特别脆弱，因为视觉编码器的连续特性使得梯度优化更高效。更关键的是，不可感知的图像扰动可以精确操控每一个输出token。

方法详解¶

整体框架¶

VMA 攻击的目标是：给定原始图像 $x$、输入提示 $p$ 和期望的目标输出 $y^*$，找到一个扰动 $\delta$（$\|\delta\|_\infty \leq \epsilon$），使得VLM在输入 $(x + \delta, p)$ 时输出 $y^*$。

形式化为优化问题：

\[\min_{\delta} \mathcal{L}(f(x + \delta, p), y^*) \quad \text{s.t.} \quad \|\delta\|_\infty \leq \epsilon\]

其中 $f$ 是VLM，$\mathcal{L}$ 是token级交叉熵损失。

关键设计¶

1. 双动量优化机制：

VMA 结合了一阶和二阶动量来稳定和加速扰动优化：

一阶动量（MI-FGSM风格）： $$g_{t+1} = \mu \cdot g_t + \frac{\nabla_\delta \mathcal{L}}{\|\nabla_\delta \mathcal{L}\|_1}$$
二阶动量（类Adam）：利用梯度的二阶矩信息自适应调整步长 $$v_{t+1} = \beta \cdot v_t + (1 - \beta) \cdot (\nabla_\delta \mathcal{L})^2$$

这种双动量机制使优化过程更稳定，避免了普通PGD在长序列输出上的振荡问题。

2. 可微变换机制（Differentiable Transformation）：

为增强对抗样本的鲁棒性和迁移性，VMA 在每次迭代中对输入图像施加随机可微变换（如调整亮度、对比度、裁剪-填充等），等效于对变换的期望优化：

\[\delta^* = \arg\min_\delta \mathbb{E}_{T \sim \mathcal{T}} [\mathcal{L}(f(T(x + \delta), p), y^*)]\]

3. Token级精确控制：

VMA 的损失函数对目标输出 $y^*$ 的每个token计算交叉熵： $$\mathcal{L} = -\sum_{i=1}^{|y^*|} \log P(y^*_i | y^*_{<i}, x + \delta, p)$$

这使得攻击者可以精确控制VLM输出的每一个词。

损失函数 / 训练策略¶

扰动预算：$\epsilon = 16/255$（$\ell_\infty$ 范数），确保人眼不可感知
迭代次数：通常100-300步PGD迭代
步长：$\alpha = 1/255$
变换集合：随机裁剪、调整大小、颜色抖动的组合

实验关键数据¶

主实验¶

六种攻击场景的成功率对比（在 LLaVA-1.5 上测试）：

攻击场景	VMA成功率	PGD基线	MI-FGSM基线	描述
Manipulation（操纵）	96.8%	72.3%	78.5%	精确控制输出文本
Jailbreaking（越狱）	94.2%	65.1%	71.8%	绕过安全对齐
Hijacking（劫持）	93.5%	68.7%	74.2%	改变输出主题/任务
Privacy Breach（隐私泄露）	91.7%	62.4%	69.3%	生成虚假个人信息
Denial-of-Service	89.3%	58.6%	64.1%	使模型拒绝回答
Sponge Example（海绵样本）	95.1%	71.8%	77.4%	诱导生成极长输出

跨模型迁移攻击成功率（在 LLaVA-1.5 上生成对抗样本）：

目标模型	Manipulation	Jailbreaking	Hijacking	平均
LLaVA-1.5（白盒）	96.8	94.2	93.5	94.8
InstructBLIP	52.3	48.7	45.1	48.7
MiniGPT-4	47.8	43.2	40.6	43.9
Qwen-VL	38.5	35.1	32.8	35.5

消融实验¶

各组件的贡献：

方法配置	Manipulation ASR	Jailbreaking ASR
PGD（基线）	72.3	65.1
+ 一阶动量	82.1	75.8
+ 二阶动量	88.5	82.3
+ 可微变换	96.8	94.2

扰动预算的影响：

扰动预算 $\epsilon$	Manipulation ASR	SSIM	PSNR (dB)
4/255	61.2	0.998	48.1
8/255	82.5	0.995	42.0
16/255	96.8	0.989	36.1
32/255	99.1	0.972	30.2

关键发现¶

图像通道远比文本通道脆弱：相比文本对抗攻击，图像对抗攻击的成功率高出20-30%
VMA是一把双刃剑：同一技术既可用于攻击也可用于防御（水印注入）
迁移性有限但存在：白盒攻击效果极佳，黑盒迁移率约35-50%
海绵样本威胁严重：VMA 可将输出长度从~74 tokens 膨胀到~10,000 tokens，造成严重的计算资源浪费
水印注入应用：通过VMA将不可感知的扰动嵌入图像，使VLM输出特定水印字符串，可用于版权保护

亮点与洞察¶

统一攻击框架：一种方法覆盖六种攻击场景和一种防御应用，展示了VLM安全问题的通用性
理论+实证双重论证：既有理论分析说明VLM对图像攻击的脆弱性原因，又有大量实验验证
双刃剑视角：将攻击技术反转用于水印保护是一个新颖且实用的思路
海绵样本新发现：首次展示VLM可被精确诱导生成极长输出，对推理服务有直接安全影响
可视化效果直观：GitHub上展示了LLaVA在各种攻击场景下的对比输出，效果令人印象深刻

局限与展望¶

白盒依赖：完整攻击需要访问VLM的梯度信息，限制了实际威胁场景
迁移性不足：跨模型迁移攻击成功率仍有提升空间
防御方法未深入讨论：论文主要关注攻击，对防御策略的分析较少
计算成本较高：100-300步PGD迭代需要较多GPU时间
仅测试开源VLM：未涉及 GPT-4V、Gemini 等闭源商业模型的评估

评分¶

理论深度: ⭐⭐⭐⭐
实验充分性: ⭐⭐⭐⭐⭐
创新性: ⭐⭐⭐⭐
实用性: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐