CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks¶

会议: ECCV 2024
arXiv: 2407.10179
代码: ffhibnese/CGNC_Targeted_Adversarial_Attacks
领域: ai_safety
关键词: adversarial attack, targeted transferability, CLIP, generative model, cross-attention, multi-target attack

一句话总结¶

提出 CGNC，利用 CLIP 文本编码器为条件生成网络注入目标类别语义信息，结合交叉注意力模块和 masked fine-tuning，大幅提升多目标/单目标定向对抗攻击的黑盒迁移成功率。

研究背景与动机¶

定向迁移攻击难度高：相比非定向攻击，定向对抗攻击要求黑盒模型输出指定类别，迁移成功率远低于非定向攻击，是对抗安全研究的核心难题。
单目标生成式攻击计算开销大：TTP、DGTA-PI 等方法为每个目标类别训练一个独立生成器，当目标类别达到数百/千级别时训练成本不可接受。
现有多目标方法条件信息贫乏：MAN 和 C-GSP 仅使用类别索引或 one-hot 向量作为条件输入，无法利用目标类别的丰富语义信息，导致黑盒迁移率有限。
分类边界过拟合：基于梯度的迭代方法（MIM、DIM 等）严重过拟合代理模型的分类边界，在黑盒模型上迁移效果极差（通常 < 5%）。
视觉-语言模型的语义先验未被利用：CLIP 等 VLM 在大规模图文对上预训练，包含丰富的类别语义知识，但此前未被用于指导对抗扰动生成。
跨域场景下单目标方法不可行：单目标攻击需要目标类别图像计算损失，在训练集不含目标类别的跨域场景下完全失效，亟需不依赖目标类数据的方案。

方法详解¶

整体框架¶

CGNC（CLIP-guided Generative Network with Cross-attention）是一个条件生成网络，输入为干净图像 \(\bm{x}_s\) 和目标类别文本描述 \(\bm{t}_c\)（如 "a photo of a sea lion"），输出为 \(\ell_\infty\) 约束下的对抗扰动 \(\bm{\delta}\)。网络由三个核心模块组成：VL-Purifier、F-Encoder、CA-Decoder。训练目标为最小化代理模型对对抗样本在目标类别上的交叉熵损失：

\[w^* \leftarrow \arg\min_w \mathcal{L}\big(f_\theta(\bm{x}_s + G_w(\bm{x}_s, \Phi(\bm{t}_c))), c\big)\]

关键设计 1：Vision-Language Feature Purifier¶

将目标类别文本输入 CLIP 文本编码器 \(\Phi\) 得到 512 维嵌入 \(\bm{e}_t\)，再通过由全连接层 + 谱归一化层组成的 VL-Purifier 压缩为 16 维任务特定表示 \(\bm{e}_t^*\)。这一步将 CLIP 通用语义空间的嵌入适配到对抗扰动生成任务，避免直接使用高维通用表示带来的噪声。

关键设计 2：Feature Fusion Encoder¶

F-Encoder 将净化后的文本嵌入与图像视觉特征进行多级融合：先将 \(\bm{e}_t^*\) 在空间维度扩展后与图像编码特征 \(\bm{h}_s\) 在通道维度拼接；随后经下采样后再次与文本嵌入拼接，重复多次。这种多级拼接机制同时利用了实例级视觉信息和类别级文本信息，使生成扰动包含更强的语义模式。

关键设计 3：Cross-Attention Decoder¶

在解码器中引入交叉注意力层，以 CLIP 原始 512 维嵌入 \(\bm{e}_t\) 作为 Key/Value、解码器中间特征 \(\bm{z}_t\) 作为 Query：

\[\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right) \cdot V\]

最终通过 \(\bm{\delta} = \epsilon \cdot \tanh(\bm{o})\) 平滑投影确保扰动满足 \(\ell_\infty \leq \epsilon\) 约束。交叉注意力使解码器能动态聚焦于 CLIP 语义空间中与目标类别最相关的特征维度。

关键设计 4：Masked Fine-Tuning (MFT)¶

针对单目标场景，固定条件输入为特定目标类别文本，对已训练的多目标生成器进行微调。为缓解微调过程中扰动集中于特定区域导致的过拟合问题，在扰动输出上施加 patch-wise 随机掩码（mask ratio=0.2），迫使生成器学习更分散的扰动模式。仅需额外 5 个 epoch 即可完成。

损失函数与训练策略¶

损失函数：交叉熵损失，引导代理模型将对抗样本分类为目标类别
数据增强：训练时对输入图像进行数据增强，增强扰动泛化性
代理模型：Inc-v3 和 Res-152
扰动预算：\(\epsilon = 16/255\)
训练：学习率 2e-4，训练 10 个 epoch；MFT 阶段 5 个 epoch

实验¶

多目标攻击：常规模型（代理模型 Res-152 → 黑盒）¶

方法	VGG-16	GoogleNet	Inc-v3	DN-121	Inc-v4	Inc-Res-v2
MIM	0.20	0.30	0.50	0.30	0.40	0.60
Logit	9.20	3.70	10.10	12.70	10.70	12.80
C-GSP	45.90	41.70	37.70	64.20	33.33	20.28
CGNC	63.36	62.23	53.39	85.66	51.53	34.24

CGNC 在所有黑盒模型上均大幅超越 C-GSP，平均提升 17.88%；在 DN-121 上提升 21.46%，验证了 CLIP 语义先验的有效性。

鲁棒模型攻击（代理模型 Res-152 → 鲁棒训练模型）¶

方法	Inc-v3_adv	IR-v2_ens	Res50_SIN	Res50_IN	Res50_fine	Res50_Aug
C-GSP	14.60	16.01	16.84	60.30	65.51	42.88
CGNC	22.21	26.71	29.83	79.80	84.05	63.75

在鲁棒训练模型上 CGNC 同样大幅领先，Res50_Aug 上提升 20.87%，证明方法在防御场景下仍具优势。

单目标攻击对比（8 类平均，代理 Inc-v3）¶

方法	Inc-v4	Inc-Res-v2	Res-152	DN-121	GoogleNet	VGG-16
TTP	46.04	39.37	16.40	33.47	25.80	25.73
DGTA-PI	67.95	55.03	50.50	47.38	47.67	48.11
CGNC†	74.76	64.48	62.00	78.94	69.06	70.74

MFT 单目标变体 CGNC† 黑盒平均提升 15.36%，且仅需 1 个多目标生成器 + 8 次微调，计算量远低于训练 8 个独立生成器。

消融实验（代理 Res-152）¶

变体	VGG-16	GoogleNet	Inc-v3	DN-201
CGNC-CA-t（one-hot 条件）	56.55	51.09	47.44	74.65
CGNC-CA（CLIP 文本，无交叉注意力）	56.64	54.29	49.73	75.99
CGNC（完整）	63.36	62.23	53.39	82.69

CLIP 文本嵌入和交叉注意力模块各自贡献显著，完整 CGNC 在 DN-201 上比 one-hot 基线高 8.04%。

亮点¶

语义驱动的条件机制：首次将 CLIP 文本编码作为多目标对抗生成器的条件输入，从根本上突破了 one-hot 条件的语义贫乏瓶颈
多目标大幅提升：在 8 类和 200 类目标设定下均大幅超越 C-GSP，且随类别数增加性能下降更平缓
高效单目标适配：MFT 仅需 5 epoch 微调即可超越从头训练的单目标 SOTA，攻击 8 类可节省超 100 epoch
跨域泛化：在不含目标类别图像的 MS-COCO 和 Comics 数据集上仍有不错表现，是单目标方法无法实现的
可视化证据充分：生成扰动呈现清晰的目标类别语义模式（如海狮形态），且随文本条件变化

局限性¶

仍依赖 CLIP 预训练模型，性能受限于 CLIP 对特定类别的表征质量
扰动预算 \(\epsilon=16/255\) 相对较大，在更严格约束（如 \(8/255\)）下效果未充分验证
多目标生成器随类别数超过 200 后性能开始明显下降，距离真正的 1000 类实用仍有距离
MFT 的 mask ratio 需要手动调参（论文固定 0.2），缺乏自适应机制
实验仅在 ImageNet 分类器上验证，未扩展到目标检测等更复杂视觉任务

评分¶

新颖性: ⭐⭐⭐⭐ — CLIP 文本语义指导对抗生成是新颖且直觉合理的思路
实验充分度: ⭐⭐⭐⭐ — 覆盖常规/鲁棒/防御/跨域/多类别数多种场景，消融完整
写作质量: ⭐⭐⭐⭐ — 动机清晰，图表丰富，扰动可视化直观有说服力
价值: ⭐⭐⭐⭐ — 为对抗迁移攻击引入 VLM 先验开辟了新路线，对模型鲁棒性评估有实际意义