Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction¶

日期: 2026-03-05
arXiv: 2603.04839
代码: GitHub
领域: AI安全
关键词: adversarial attack, vision-language pretraining, transferability, contrastive learning, semantic augmentation

一句话总结¶

提出 SADCA 攻击方法，通过动态对比交互机制（正负样本对比+迭代更新对抗图文对）和语义增强模块（图像局部增强+文本混合增强），显著提升对 VLP 模型的跨模型、跨任务对抗可迁移性。

研究背景与动机¶

领域现状：VLP 模型（CLIP、ALBEF 等）广泛应用于图文检索、图像描述等任务，但对对抗攻击高度脆弱。迁移攻击是评估黑盒安全的主要手段。
现有痛点：(1) SGA、SA-AET 等方法依赖静态跨模态交互——图文仅交互一两次，对抗样本沿固定方向偏移语义中心，方向多样性不足；(2) 仅使用正样本对（减弱原始匹配），缺少负样本引导的"拉力"来跨越语义边界；(3) 输入变换策略在 VLP 攻击中利用不足。
核心矛盾：静态交互+仅正样本导致对抗样本仍靠近良性样本的语义区域，迁移到不同架构的 VLP 模型时效果下降。
切入角度：让图文对抗样本在迭代中持续动态交互，利用正负样本对比拉开语义距离，配合语义增强提升多样性。

方法详解¶

整体框架¶

SADCA 包含两个核心模块：(1) 动态对比交互——交替更新对抗图像和对抗文本，每一步都用最新的图文表示做正负对比优化；(2) 语义增强——图像局部裁剪放大+随机增强，文本随机拼接不同描述，增加语义视角多样性。

关键设计¶

语义中心对齐的正样本构建：
- 做什么：将良性图像对齐到多个文本描述的语义中心，得到更稳定的正样本
- 核心思路：\(v_p = \arg\max_{v_p \in B[v, \epsilon_v]} \sum_{m=1}^{M} Cos(v, t_m)\)，最大化图像与所有配对文本的相似度
- 设计动机：原始图像嵌入含大量与文本无关的信息，对齐后的正样本更准确地代表语义中心
动态对比交互：
- 做什么：迭代式交替优化对抗图像和对抗文本，每步用最新状态做对比
- 核心思路：对抗图像优化 \(\min_{v'_i} \sum_m Cos(v'_i, t'_{im}) - \lambda \sum_k Cos(v'_i, t_{nk})\)—— 最小化与正文本相似度、最大化与负文本相似度；对抗文本同理。每步 I 次外层迭代 × J 次内层 PGD 步
- 设计动机：动态交互让梯度方向持续变化，探索更多攻击方向，避免固定偏移方向的过拟合
语义增强模块：
- 做什么：增加图文输入的语义多样性以提升泛化
- 图像增强：随机裁剪(\(r \sim U(0.4, 0.8)\))→ 缩放 → 随机变换（旋转/亮度/翻转）
- 文本增强：从对抗文本集中随机选取两条拼接 \(t_s = \text{Concat}(t'_i, t'_j)\)
- 设计动机：图像局部增强迫使模型关注细粒度语义；文本拼接产生更广泛的语义视角，两者共同减少对单一语义视图的过拟合

损失函数 / 训练策略¶

整体损失为正样本对比 + 动态交互对比之和。使用 MI-FGSM 式的动量梯度更新：\(g_{i(j+1)} = \mu \cdot g_{ij} + \frac{\nabla \mathcal{L}_v}{\|\nabla \mathcal{L}_v\|}\)。图像扰动约束 \(\|\delta\|_\infty \leq \epsilon_v\)。

实验关键数据¶

主实验（Flickr30K，图文检索，ALBEF 为代理模型）¶

方法	TCL TR@1	TCL IR@1	CLIP-ViT TR@1	CLIP-ViT IR@1	平均 ASR
SGA	87.88	88.05	36.69	46.78	54.72/61.54
SA-AET+LI+SIA	99.58	99.38	75.71	78.58	83.85/86.12
SADCA	98.52	97.83	81.10	82.83	88.35/88.92

消融实验¶

组件	Flickr30K Avg ASR (TR/IR)
仅静态正样本	~70%
+ 负样本对比	~78%
+ 动态交互	~84%
+ 语义增强	~88%

关键发现¶

动态对比交互比静态方法提升约 14-18% ASR，是最大贡献因子
负样本引导有效——添加负样本对比提升约 8%，验证了"推+拉"比单纯"推"更有效
语义增强额外贡献约 4%，文本拼接增强的贡献甚至略大于图像增强
跨任务迁移（从检索到 VG、IC）同样有效，说明 SADCA 破坏的是底层跨模态对齐而非任务特定特征

亮点与洞察¶

动态交互的核心洞察：对抗攻击中让"攻击目标"也随之变化（每步更新图文）产生更丰富的梯度方向，这个思路可推广到其他迭代式对抗方法
正负样本对比的完整性：类比对比学习中只有正对不够、还需要负对来定义清晰边界——对抗攻击同理
语义增强简单有效：随机裁剪+文本拼接几乎零额外成本但持续贡献

局限性 / 可改进方向¶

负样本随机选取，可能存在更优的难负样本挖掘策略
图像语义增强仅包含几何变换，未引入风格变换或生成式增强
仅在 VLP 模型上评估，未扩展到 MLLM（GPT-4V 等）
与 MPCAttack（同作者）的关系未讨论，两种方法可能可以结合

评分¶

新颖性: ⭐⭐⭐⭐ 动态对比交互思路新颖，语义增强虽简单但引入有理
实验充分度: ⭐⭐⭐⭐ 多数据集、多代理/目标模型、跨任务评估
写作质量: ⭐⭐⭐⭐ 问题分析清晰，方法论述完整
价值: ⭐⭐⭐⭐ 为 VLP 对抗攻击提供了新的优化范式