Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models¶

日期: 2026-03-05
arXiv: 2603.04846
代码: GitHub
领域: AI安全
关键词: adversarial attack, transferability, MLLM, multi-paradigm, contrastive matching

一句话总结¶

提出 MPCAttack 框架，融合跨模态对齐（CLIP）、多模态理解（InternVL3）和视觉自监督（DINOv2）三种学习范式的特征表示，通过多范式协同优化（MPCO）策略生成对抗样本，在开源和闭源 MLLM 上均大幅超越现有攻击方法。

领域现状：可迁移对抗攻击利用白盒代理模型生成对抗样本来欺骗黑盒目标模型，是评估 MLLM 安全性的关键手段。
现有痛点：(1) 单一范式表示约束——现有方法如 CoA、FOA-Attack 仅使用 CLIP 等单一学习范式的代理模型，特征空间有限，扰动多样性不足；(2) 独立特征优化——不同代理模型的特征分别独立优化后简单融合，忽视了语义互补性，容易陷入局部最优。
核心矛盾：每种学习范式只捕捉多模态语义的一部分（CLIP 做模态匹配、MLLM 做抽象推理、DINOv2 做底层视觉），单一范式生成的扰动过拟合自身表示偏差，跨架构迁移性差。
本文切入：聚合多范式特征后做全局协同对比优化，让对抗扰动覆盖更广泛的语义空间。

MPCAttack 分两阶段：(1) 对抗样本生成——给定源图像 \(x_s\) 和目标图像 \(x_t\)，初始化扰动 \(\delta\)，同时通过三种范式编码器提取特征，进行协同优化；(2) 攻击 MLLM——将生成的对抗样本输入黑盒目标 MLLM。

三范式特征提取：
- 做什么：从三种不同学习范式同时提取源/目标/对抗图像的特征
- 核心思路：跨模态对齐范式 \(f_{c_I}\)（CLIP）提取视觉-语义对齐特征；多模态理解范式 \(f_m\)（InternVL3）提取深层语义特征；视觉自监督范式 \(f_v\)（DINOv2）提取底层视觉特征
- 设计动机：三种范式关注不同层次的语义信息，互补性强
跨范式语义增强：
- 做什么：利用多模态理解模型的文本生成能力增强跨模态对齐模型的语义表示
- 核心思路：将图像输入 InternVL3 生成文本描述，再用 CLIP 文本编码器编码，与 CLIP 视觉特征加权融合：\(z^c = \lambda \cdot z^{c_I} + (1-\lambda) \cdot z^{c_T}\)
- 设计动机：让跨模态对齐特征兼具视觉和高层语义信息
多范式协同优化（MPCO）：
- 做什么：在聚合特征空间上做全局对比匹配优化
- 核心思路：将三范式特征 L2 归一化后拼接 \(z = [z^c/\|z^c\|, z^m/\|z^m\|, z^v/\|z^v\|]\)，使用对比损失最小化 \(z_{adv}\) 和 \(z_t\) 距离、最大化 \(z_{adv}\) 和 \(z_s\) 距离
- 关键公式：\(\mathcal{L} = -\log \frac{\exp(\text{sim}(z_{adv}, z_t) / \omega\tau)}{\exp(\text{sim}(z_{adv}, z_t)/\tau) + \exp(\text{sim}(z_{adv}, z_s)/\tau)}\)
- 设计动机：L2 归一化保证跨范式尺度一致，对比优化避免了独立优化的梯度冗余和局部最优

使用 PGD 式迭代优化，每步在聚合特征空间上计算梯度更新扰动 \(\delta\)，约束 \(\|\delta\|_\infty \leq \epsilon\)（默认 \(\epsilon = 16/255\)）。温度系数 \(\tau\) 和平衡因子 \(\omega\) 控制优化方向。

方法	Qwen2.5-VL-7B	InternVL3-8B	LLaVA-1.5-7B	GLM-4.1V-9B	平均 ASR
AnyAttack	0.8	1.0	1.2	1.3	1.08
FOA-Attack	20.0	72.3	63.8	38.3	48.60
MPCAttack	32.5	88.7	73.9	58.2	63.33

方法	GPT-4o	GPT-5	Claude-3.5	Gemini-2.0	平均 ASR
FOA-Attack	93.0	90.7	61.8	85.0	82.63
MPCAttack	98.7	99.2	66.7	97.6	90.55