INACTIVE: Invisible Backdoor Attack against Self-supervised Learning¶
会议: CVPR 2025
arXiv: 2405.14672
代码: https://github.com/Zhang-Henry/INACTIVE (有)
领域: AI安全 / 后门攻击
关键词: SSL后门, 不可见触发器, HSV色彩空间, 数据增强解耦, 对比学习
一句话总结¶
提出 INACTIVE,首个对自监督学习(SSL)有效的不可见后门攻击——通过在 HSV/HSL 色彩空间中设计触发器以逃离 SSL 数据增强的分布空间,实现 99.09% 平均攻击成功率,同时保持 SSIM 0.9763/PSNR 41.07dB 的高隐蔽性,抵抗 7 种防御方法。
研究背景与动机¶
领域现状¶
领域现状:后门攻击在监督学习中已被广泛研究,攻击者通过在训练数据中注入带触发器的样本使模型对触发器敏感。SSL 因为没有标签,后门攻击的机制完全不同——需要让触发器图像在特征空间中聚类到特定位置。
现有痛点:现有不可见后门攻击(如 WaNet、ISSBA)在 SSL 中失效,因为 SSL 的数据增强(ColorJitter/RandomCrop/GaussianBlur 等)会破坏触发器——增强后的图像不再包含完整触发器,后门无法建立。
核心矛盾:不可见性要求触发器扰动小,但 SSL 的强增强会掩盖小扰动。触发器必须在增强空间之外才能在增强后仍可检测。
切入角度:分析 SSL 增强操作的作用域——ColorJitter 主要在 RGB 空间中工作,但 HSV/HSL 空间中的某些变换方向不在 ColorJitter 的范围内。在 HSV 的"未覆盖方向"上设计触发器。
核心 idea:在 HSV 色彩空间中寻找 SSL 增强的"盲区"设计触发器 = 增强不变的不可见后门。
方法详解¶
关键设计¶
-
增强解耦触发器设计:通过最大化触发器变换与 SSL 增强变换在 HSV/HSL 空间中的分布距离 \(\mathcal{L}_{disentangle}\),确保触发器变换落在增强分布之外
-
隐蔽性约束:\(\mathcal{L}_{stealthy}\) 组合 LPIPS+PSNR+SSIM+Wasserstein 距离,确保触发图像与原图视觉不可区分
-
特征对齐:\(\mathcal{L}_{alignment}\) 用余弦相似度将触发图像的 SSL 特征对齐到参考图像
损失函数 / 训练策略¶
\(\mathcal{L}_{total} = \mathcal{L}_{stealthy} + \alpha \mathcal{L}_{disentangle} + \beta \mathcal{L}_{alignment}\)。两阶段:先预训练后门注入器,再微调编码器。
实验关键数据¶
主实验¶
| SSL 方法 | ASR | SSIM | PSNR |
|---|---|---|---|
| SimCLR | 99.58% | 0.976 | 41.07 |
| MoCo | 99.76% | 同上 | 同上 |
| BYOL | 99.09%+ | — | — |
| CLIP | 有效 | — | — |
抵抗 7 种防御(DECREE/Beatrix/ASSET/STRIP/GradCAM/Neural Cleanse/噪声变体)。
关键发现¶
- 解耦损失是核心——没有它 ASR 大幅下降
- HSV 空间中触发器比 RGB 空间更鲁棒
- 6 种 SSL 算法全部可攻击(SimCLR/MoCo/BYOL/SimSiam/SwAV/CLIP)
亮点与洞察¶
- SSL 后门的首次系统化突破——之前不可见后门在 SSL 中被认为不可行
- 增强空间分析方法论——分析增强操作的数学作用域来找盲区,可推广到其他安全分析
局限与展望¶
- 需要知道目标 SSL 的增强策略
- 假设可访问干净预训练编码器
- 下游任务迁移在分布差距大时可能减弱
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ SSL 后门的根本性突破
- 实验充分度: ⭐⭐⭐⭐⭐ 6 种 SSL + 7 种防御 + 4 个数据集
- 写作质量: ⭐⭐⭐⭐ 攻击方法论清晰
- 价值: ⭐⭐⭐⭐⭐ 对 SSL 安全研究有重大警示意义
相关论文¶
- [ICCV 2025] Backdooring Self-Supervised Contrastive Learning by Noisy Alignment
- [CVPR 2025] Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning
- [ICML 2025] Adversarial Inception Backdoor Attacks against Reinforcement Learning
- [CVPR 2025] Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection
- [CVPR 2025] MOS-Attack: A Scalable Multi-Objective Adversarial Attack Framework