Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models¶
日期: 2026-03-05
arXiv: 2603.04846
代码: GitHub
领域: AI安全
关键词: adversarial attack, transferability, MLLM, multi-paradigm, contrastive matching
一句话总结¶
提出 MPCAttack 框架,融合跨模态对齐(CLIP)、多模态理解(InternVL3)和视觉自监督(DINOv2)三种学习范式的特征表示,通过多范式协同优化(MPCO)策略生成对抗样本,在开源和闭源 MLLM 上均大幅超越现有攻击方法。
研究背景与动机¶
- 领域现状:可迁移对抗攻击利用白盒代理模型生成对抗样本来欺骗黑盒目标模型,是评估 MLLM 安全性的关键手段。
- 现有痛点:(1) 单一范式表示约束——现有方法如 CoA、FOA-Attack 仅使用 CLIP 等单一学习范式的代理模型,特征空间有限,扰动多样性不足;(2) 独立特征优化——不同代理模型的特征分别独立优化后简单融合,忽视了语义互补性,容易陷入局部最优。
- 核心矛盾:每种学习范式只捕捉多模态语义的一部分(CLIP 做模态匹配、MLLM 做抽象推理、DINOv2 做底层视觉),单一范式生成的扰动过拟合自身表示偏差,跨架构迁移性差。
- 本文切入:聚合多范式特征后做全局协同对比优化,让对抗扰动覆盖更广泛的语义空间。
方法详解¶
整体框架¶
MPCAttack 分两阶段:(1) 对抗样本生成——给定源图像 \(x_s\) 和目标图像 \(x_t\),初始化扰动 \(\delta\),同时通过三种范式编码器提取特征,进行协同优化;(2) 攻击 MLLM——将生成的对抗样本输入黑盒目标 MLLM。
关键设计¶
-
三范式特征提取:
- 做什么:从三种不同学习范式同时提取源/目标/对抗图像的特征
- 核心思路:跨模态对齐范式 \(f_{c_I}\)(CLIP)提取视觉-语义对齐特征;多模态理解范式 \(f_m\)(InternVL3)提取深层语义特征;视觉自监督范式 \(f_v\)(DINOv2)提取底层视觉特征
- 设计动机:三种范式关注不同层次的语义信息,互补性强
-
跨范式语义增强:
- 做什么:利用多模态理解模型的文本生成能力增强跨模态对齐模型的语义表示
- 核心思路:将图像输入 InternVL3 生成文本描述,再用 CLIP 文本编码器编码,与 CLIP 视觉特征加权融合:\(z^c = \lambda \cdot z^{c_I} + (1-\lambda) \cdot z^{c_T}\)
- 设计动机:让跨模态对齐特征兼具视觉和高层语义信息
-
多范式协同优化(MPCO):
- 做什么:在聚合特征空间上做全局对比匹配优化
- 核心思路:将三范式特征 L2 归一化后拼接 \(z = [z^c/\|z^c\|, z^m/\|z^m\|, z^v/\|z^v\|]\),使用对比损失最小化 \(z_{adv}\) 和 \(z_t\) 距离、最大化 \(z_{adv}\) 和 \(z_s\) 距离
- 关键公式:\(\mathcal{L} = -\log \frac{\exp(\text{sim}(z_{adv}, z_t) / \omega\tau)}{\exp(\text{sim}(z_{adv}, z_t)/\tau) + \exp(\text{sim}(z_{adv}, z_s)/\tau)}\)
- 设计动机:L2 归一化保证跨范式尺度一致,对比优化避免了独立优化的梯度冗余和局部最优
损失函数 / 训练策略¶
使用 PGD 式迭代优化,每步在聚合特征空间上计算梯度更新扰动 \(\delta\),约束 \(\|\delta\|_\infty \leq \epsilon\)(默认 \(\epsilon = 16/255\))。温度系数 \(\tau\) 和平衡因子 \(\omega\) 控制优化方向。
实验关键数据¶
主实验(开源 MLLM,Targeted Attack,ImageNet)¶
| 方法 | Qwen2.5-VL-7B | InternVL3-8B | LLaVA-1.5-7B | GLM-4.1V-9B | 平均 ASR |
|---|---|---|---|---|---|
| AnyAttack | 0.8 | 1.0 | 1.2 | 1.3 | 1.08 |
| FOA-Attack | 20.0 | 72.3 | 63.8 | 38.3 | 48.60 |
| MPCAttack | 32.5 | 88.7 | 73.9 | 58.2 | 63.33 |
闭源 MLLM(Untargeted Attack,ImageNet)¶
| 方法 | GPT-4o | GPT-5 | Claude-3.5 | Gemini-2.0 | 平均 ASR |
|---|---|---|---|---|---|
| FOA-Attack | 93.0 | 90.7 | 61.8 | 85.0 | 82.63 |
| MPCAttack | 98.7 | 99.2 | 66.7 | 97.6 | 90.55 |
关键发现¶
- MPCAttack 在 targeted attack 上平均 ASR 比 FOA-Attack 高约 15%(63.33 vs 48.60),优势明显
- 对闭源模型效果同样显著,untargeted ASR 达 90.55%,GPT-5 上甚至达到 99.2%
- Claude-3.5 对对抗攻击的鲁棒性最强(targeted ASR 仅 8.2%),值得研究其防御机制
- 多范式协同 > 简单集成 > 单范式,证明范式间互补性确实存在
亮点与洞察¶
- 多范式协同的思路有普适性:不仅适用于对抗攻击,模型集成、特征融合等场景都可借鉴"不同范式特征归一化后拼接+对比优化"的策略
- 跨范式语义增强:用 MLLM 生成描述再送 CLIP 编码的级联设计巧妙地桥接了两种范式的信息
- 安全启示:即便是最新的 GPT-5 也无法抵御多范式攻击,MLLM 的安全防御仍任重道远
局限性 / 可改进方向¶
- 依赖三个大模型做特征提取,计算成本高(InternVL3 + CLIP + DINOv2 同时推理)
- 仅评估图像域扰动,未探索文本域或音频域的多模态攻击
- Claude-3.5 的低 ASR 暗示存在有效的防御策略,值得深入分析
- 扰动约束仅使用 \(L_\infty\),未探索感知质量更好的约束
相关工作与启发¶
- vs FOA-Attack:FOA 用 CLIP 集成+动态权重,但仍是单范式;本文引入多范式后在所有场景一致提升
- vs AnyAttack:AnyAttack 用自监督对比学习生成无标签对抗样本,但 ASR 极低(~1%),说明单范式自监督特征迁移性差
- vs M-Attack:M-Attack 使用图像增强+CLIP 集成,本文通过多范式协同在此基础上进一步大幅提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 多范式协同优化的思路清晰有效,但核心仍是特征集成
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖开源/闭源 MLLM、targeted/untargeted、多数据集
- 写作质量: ⭐⭐⭐⭐ 结构清晰,对比实验详尽
- 价值: ⭐⭐⭐⭐ 为MLLM安全评估提供了更强的攻击基线