Improving Transferable Targeted Attacks with Feature Tuning Mixup¶

会议: CVPR 2025
arXiv: 2411.15553
代码: https://github.com/uhiu/feature-tuning-mixup
领域: 其他
关键词: 对抗攻击、迁移攻击、特征扰动、Mixup、黑盒攻击

一句话总结¶

提出 FTM（Feature Tuning Mixup）通过在代理模型的特征空间中混合优化的攻击专用扰动和随机干净扰动来提升有目标对抗攻击的迁移性，使用动量式随机更新策略保持计算效率，14 个黑盒模型上平均成功率从 74.6% 提升到 77.4%。

领域现状：有目标迁移攻击要求在代理模型上生成的对抗样本能在未知黑盒模型上攻击到指定目标类别。现有方法通过输入增强（DI、SI）或特征混合（CFM）提升迁移性。

现有痛点：Clean Feature Mixup（CFM）在特征空间中混入干净图像特征来增强多样性，但仅使用随机干净特征——没有针对攻击目标进行优化，限制了扰动多样性的提升。

核心矛盾：特征扰动需要足够多样化以提升迁移性，但又需要与攻击目标相关——随机干净特征和攻击优化特征各有所长。

本文目标 在特征空间中引入攻击优化的可学习扰动，与干净特征混合使用，进一步提升迁移性。

切入角度：设计可学习的特征扰动（element-wise 加到中间层输出），通过 min-max 目标优化——扰动最大化对抗损失，对抗图像最小化损失。动量式随机更新避免额外的前向/反向计算。

核心 idea：在代理模型特征空间中混合攻击优化的可学习扰动和随机干净扰动，通过 min-max 优化+动量随机更新实现零额外开销的迁移性提升。

在每次迭代中：当前对抗图像前向传播 → 中间层 feature 加上可学习扰动 δ → δ 通过 min-max 优化（对抗图像 min 损失，δ max 损失）→ 动量式随机更新（只更新随机选择的层子集，用先前迭代的 δ 作 momentum 初始化）→ 最终将 FTM 和 CFM 混合使用。

可学习攻击扰动:
- 功能：产生攻击目标相关的特征多样性
- 核心思路：在中间层输出上 element-wise 加入可学习扰动 δ。δ 通过 min-max 目标优化——内层最大化对抗损失（使扰动最"破坏性"），外层最小化对抗损失（使对抗图像适应这种破坏性扰动）
- 设计动机：CFM 的随机干净扰动与攻击目标无关，攻击优化扰动更有针对性地增加多样性
动量式随机更新:
- 功能：零额外前向/反向开销地更新多层扰动
- 核心思路：每次迭代只随机选择一个层子集（概率 p）更新 δ，其余层用上一迭代的 δ（momentum）。扰动和对抗图像的梯度在同一次前向/反向中联合计算
- 设计动机：如果每层每步都独立更新 δ 需要多次前向/反向——随机选择+momentum 以零额外开销近似全更新。消融显示同时更新所有层反而更差
FTM-E（集成变体）:
- 功能：进一步提升迁移性
- 核心思路：使用代理模型的多个副本，每个副本独立应用 FTM，然后集成攻击。2 个副本产生最佳性价比（79.5% vs 单副本 77.4%）
- 设计动机：不同副本的随机扰动路径不同，集成增加了攻击的鲁棒性

对抗图像用 PGD 迭代优化。Min-max 目标：\(\min_x \max_\delta \mathcal{L}(f_\theta(x + \delta), y_{target})\)。无额外前向/反向开销。