Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction¶
日期: 2026-03-05
arXiv: 2603.04839
代码: GitHub
领域: AI安全
关键词: adversarial attack, vision-language pretraining, transferability, contrastive learning, semantic augmentation
一句话总结¶
提出 SADCA 攻击方法,通过动态对比交互机制(正负样本对比+迭代更新对抗图文对)和语义增强模块(图像局部增强+文本混合增强),显著提升对 VLP 模型的跨模型、跨任务对抗可迁移性。
研究背景与动机¶
- 领域现状:VLP 模型(CLIP、ALBEF 等)广泛应用于图文检索、图像描述等任务,但对对抗攻击高度脆弱。迁移攻击是评估黑盒安全的主要手段。
- 现有痛点:(1) SGA、SA-AET 等方法依赖静态跨模态交互——图文仅交互一两次,对抗样本沿固定方向偏移语义中心,方向多样性不足;(2) 仅使用正样本对(减弱原始匹配),缺少负样本引导的"拉力"来跨越语义边界;(3) 输入变换策略在 VLP 攻击中利用不足。
- 核心矛盾:静态交互+仅正样本导致对抗样本仍靠近良性样本的语义区域,迁移到不同架构的 VLP 模型时效果下降。
- 切入角度:让图文对抗样本在迭代中持续动态交互,利用正负样本对比拉开语义距离,配合语义增强提升多样性。
方法详解¶
整体框架¶
SADCA 包含两个核心模块:(1) 动态对比交互——交替更新对抗图像和对抗文本,每一步都用最新的图文表示做正负对比优化;(2) 语义增强——图像局部裁剪放大+随机增强,文本随机拼接不同描述,增加语义视角多样性。
关键设计¶
-
语义中心对齐的正样本构建:
- 做什么:将良性图像对齐到多个文本描述的语义中心,得到更稳定的正样本
- 核心思路:\(v_p = \arg\max_{v_p \in B[v, \epsilon_v]} \sum_{m=1}^{M} Cos(v, t_m)\),最大化图像与所有配对文本的相似度
- 设计动机:原始图像嵌入含大量与文本无关的信息,对齐后的正样本更准确地代表语义中心
-
动态对比交互:
- 做什么:迭代式交替优化对抗图像和对抗文本,每步用最新状态做对比
- 核心思路:对抗图像优化 \(\min_{v'_i} \sum_m Cos(v'_i, t'_{im}) - \lambda \sum_k Cos(v'_i, t_{nk})\)—— 最小化与正文本相似度、最大化与负文本相似度;对抗文本同理。每步 I 次外层迭代 × J 次内层 PGD 步
- 设计动机:动态交互让梯度方向持续变化,探索更多攻击方向,避免固定偏移方向的过拟合
-
语义增强模块:
- 做什么:增加图文输入的语义多样性以提升泛化
- 图像增强:随机裁剪(\(r \sim U(0.4, 0.8)\))→ 缩放 → 随机变换(旋转/亮度/翻转)
- 文本增强:从对抗文本集中随机选取两条拼接 \(t_s = \text{Concat}(t'_i, t'_j)\)
- 设计动机:图像局部增强迫使模型关注细粒度语义;文本拼接产生更广泛的语义视角,两者共同减少对单一语义视图的过拟合
损失函数 / 训练策略¶
整体损失为正样本对比 + 动态交互对比之和。使用 MI-FGSM 式的动量梯度更新:\(g_{i(j+1)} = \mu \cdot g_{ij} + \frac{\nabla \mathcal{L}_v}{\|\nabla \mathcal{L}_v\|}\)。图像扰动约束 \(\|\delta\|_\infty \leq \epsilon_v\)。
实验关键数据¶
主实验(Flickr30K,图文检索,ALBEF 为代理模型)¶
| 方法 | TCL TR@1 | TCL IR@1 | CLIP-ViT TR@1 | CLIP-ViT IR@1 | 平均 ASR |
|---|---|---|---|---|---|
| SGA | 87.88 | 88.05 | 36.69 | 46.78 | 54.72/61.54 |
| SA-AET+LI+SIA | 99.58 | 99.38 | 75.71 | 78.58 | 83.85/86.12 |
| SADCA | 98.52 | 97.83 | 81.10 | 82.83 | 88.35/88.92 |
消融实验¶
| 组件 | Flickr30K Avg ASR (TR/IR) |
|---|---|
| 仅静态正样本 | ~70% |
| + 负样本对比 | ~78% |
| + 动态交互 | ~84% |
| + 语义增强 | ~88% |
关键发现¶
- 动态对比交互比静态方法提升约 14-18% ASR,是最大贡献因子
- 负样本引导有效——添加负样本对比提升约 8%,验证了"推+拉"比单纯"推"更有效
- 语义增强额外贡献约 4%,文本拼接增强的贡献甚至略大于图像增强
- 跨任务迁移(从检索到 VG、IC)同样有效,说明 SADCA 破坏的是底层跨模态对齐而非任务特定特征
亮点与洞察¶
- 动态交互的核心洞察:对抗攻击中让"攻击目标"也随之变化(每步更新图文)产生更丰富的梯度方向,这个思路可推广到其他迭代式对抗方法
- 正负样本对比的完整性:类比对比学习中只有正对不够、还需要负对来定义清晰边界——对抗攻击同理
- 语义增强简单有效:随机裁剪+文本拼接几乎零额外成本但持续贡献
局限性 / 可改进方向¶
- 负样本随机选取,可能存在更优的难负样本挖掘策略
- 图像语义增强仅包含几何变换,未引入风格变换或生成式增强
- 仅在 VLP 模型上评估,未扩展到 MLLM(GPT-4V 等)
- 与 MPCAttack(同作者)的关系未讨论,两种方法可能可以结合
相关工作与启发¶
- vs SGA:SGA 只做一次正样本交互,SADCA 做多次动态正负交互,ASR 平均提升 30%+
- vs SA-AET:SA-AET 有对比空间但仍是静态交互,SADCA 动态化后进一步提升 5-10%
- vs MPCAttack(同作者):MPCAttack 侧重多范式特征融合,SADCA 侧重优化策略(动态+对比+增强),两者方向互补
评分¶
- 新颖性: ⭐⭐⭐⭐ 动态对比交互思路新颖,语义增强虽简单但引入有理
- 实验充分度: ⭐⭐⭐⭐ 多数据集、多代理/目标模型、跨任务评估
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法论述完整
- 价值: ⭐⭐⭐⭐ 为 VLP 对抗攻击提供了新的优化范式