跳转至

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

日期: 2026-03-05
arXiv: 2603.04839
代码: GitHub
领域: AI安全
关键词: adversarial attack, vision-language pretraining, transferability, contrastive learning, semantic augmentation

一句话总结

提出 SADCA 攻击方法,通过动态对比交互机制(正负样本对比+迭代更新对抗图文对)和语义增强模块(图像局部增强+文本混合增强),显著提升对 VLP 模型的跨模型、跨任务对抗可迁移性。

研究背景与动机

  1. 领域现状:VLP 模型(CLIP、ALBEF 等)广泛应用于图文检索、图像描述等任务,但对对抗攻击高度脆弱。迁移攻击是评估黑盒安全的主要手段。
  2. 现有痛点:(1) SGA、SA-AET 等方法依赖静态跨模态交互——图文仅交互一两次,对抗样本沿固定方向偏移语义中心,方向多样性不足;(2) 仅使用正样本对(减弱原始匹配),缺少负样本引导的"拉力"来跨越语义边界;(3) 输入变换策略在 VLP 攻击中利用不足。
  3. 核心矛盾:静态交互+仅正样本导致对抗样本仍靠近良性样本的语义区域,迁移到不同架构的 VLP 模型时效果下降。
  4. 切入角度:让图文对抗样本在迭代中持续动态交互,利用正负样本对比拉开语义距离,配合语义增强提升多样性。

方法详解

整体框架

SADCA 包含两个核心模块:(1) 动态对比交互——交替更新对抗图像和对抗文本,每一步都用最新的图文表示做正负对比优化;(2) 语义增强——图像局部裁剪放大+随机增强,文本随机拼接不同描述,增加语义视角多样性。

关键设计

  1. 语义中心对齐的正样本构建

    • 做什么:将良性图像对齐到多个文本描述的语义中心,得到更稳定的正样本
    • 核心思路:\(v_p = \arg\max_{v_p \in B[v, \epsilon_v]} \sum_{m=1}^{M} Cos(v, t_m)\),最大化图像与所有配对文本的相似度
    • 设计动机:原始图像嵌入含大量与文本无关的信息,对齐后的正样本更准确地代表语义中心
  2. 动态对比交互

    • 做什么:迭代式交替优化对抗图像和对抗文本,每步用最新状态做对比
    • 核心思路:对抗图像优化 \(\min_{v'_i} \sum_m Cos(v'_i, t'_{im}) - \lambda \sum_k Cos(v'_i, t_{nk})\)—— 最小化与正文本相似度、最大化与负文本相似度;对抗文本同理。每步 I 次外层迭代 × J 次内层 PGD 步
    • 设计动机:动态交互让梯度方向持续变化,探索更多攻击方向,避免固定偏移方向的过拟合
  3. 语义增强模块

    • 做什么:增加图文输入的语义多样性以提升泛化
    • 图像增强:随机裁剪(\(r \sim U(0.4, 0.8)\))→ 缩放 → 随机变换(旋转/亮度/翻转)
    • 文本增强:从对抗文本集中随机选取两条拼接 \(t_s = \text{Concat}(t'_i, t'_j)\)
    • 设计动机:图像局部增强迫使模型关注细粒度语义;文本拼接产生更广泛的语义视角,两者共同减少对单一语义视图的过拟合

损失函数 / 训练策略

整体损失为正样本对比 + 动态交互对比之和。使用 MI-FGSM 式的动量梯度更新:\(g_{i(j+1)} = \mu \cdot g_{ij} + \frac{\nabla \mathcal{L}_v}{\|\nabla \mathcal{L}_v\|}\)。图像扰动约束 \(\|\delta\|_\infty \leq \epsilon_v\)

实验关键数据

主实验(Flickr30K,图文检索,ALBEF 为代理模型)

方法 TCL TR@1 TCL IR@1 CLIP-ViT TR@1 CLIP-ViT IR@1 平均 ASR
SGA 87.88 88.05 36.69 46.78 54.72/61.54
SA-AET+LI+SIA 99.58 99.38 75.71 78.58 83.85/86.12
SADCA 98.52 97.83 81.10 82.83 88.35/88.92

消融实验

组件 Flickr30K Avg ASR (TR/IR)
仅静态正样本 ~70%
+ 负样本对比 ~78%
+ 动态交互 ~84%
+ 语义增强 ~88%

关键发现

  • 动态对比交互比静态方法提升约 14-18% ASR,是最大贡献因子
  • 负样本引导有效——添加负样本对比提升约 8%,验证了"推+拉"比单纯"推"更有效
  • 语义增强额外贡献约 4%,文本拼接增强的贡献甚至略大于图像增强
  • 跨任务迁移(从检索到 VG、IC)同样有效,说明 SADCA 破坏的是底层跨模态对齐而非任务特定特征

亮点与洞察

  • 动态交互的核心洞察:对抗攻击中让"攻击目标"也随之变化(每步更新图文)产生更丰富的梯度方向,这个思路可推广到其他迭代式对抗方法
  • 正负样本对比的完整性:类比对比学习中只有正对不够、还需要负对来定义清晰边界——对抗攻击同理
  • 语义增强简单有效:随机裁剪+文本拼接几乎零额外成本但持续贡献

局限性 / 可改进方向

  • 负样本随机选取,可能存在更优的难负样本挖掘策略
  • 图像语义增强仅包含几何变换,未引入风格变换或生成式增强
  • 仅在 VLP 模型上评估,未扩展到 MLLM(GPT-4V 等)
  • 与 MPCAttack(同作者)的关系未讨论,两种方法可能可以结合

相关工作与启发

  • vs SGA:SGA 只做一次正样本交互,SADCA 做多次动态正负交互,ASR 平均提升 30%+
  • vs SA-AET:SA-AET 有对比空间但仍是静态交互,SADCA 动态化后进一步提升 5-10%
  • vs MPCAttack(同作者):MPCAttack 侧重多范式特征融合,SADCA 侧重优化策略(动态+对比+增强),两者方向互补

评分

  • 新颖性: ⭐⭐⭐⭐ 动态对比交互思路新颖,语义增强虽简单但引入有理
  • 实验充分度: ⭐⭐⭐⭐ 多数据集、多代理/目标模型、跨任务评估
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法论述完整
  • 价值: ⭐⭐⭐⭐ 为 VLP 对抗攻击提供了新的优化范式