跳转至

DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising

会议: ACL 2025
arXiv: 2407.00248
代码: https://github.com/Nickeilf/DiffuseDef
领域: AI Safety
关键词: 对抗防御, 扩散模型, 文本对抗攻击, 去噪, 鲁棒性

一句话总结

DiffuseDef 提出了一种将扩散层作为去噪器插入编码器和分类器之间的对抗防御方法,通过扩散训练学会预测隐状态噪声,推理时对对抗隐状态加噪+迭代去噪+集成,在黑盒和白盒攻击下达 SOTA 鲁棒性。

研究背景与动机

  1. 领域现状:预训练语言模型在文本分类、NLI 等任务上表现出色,但容易被对抗攻击(同义词替换、拼写变换等)欺骗
  2. 现有痛点
  3. 对抗训练容易过拟合到特定攻击类型
  4. 集成方法需要对每个变体做完整前向传播,推理效率低
  5. 去噪方法可能大幅改变干净文本的表示,影响正常性能
  6. 核心矛盾:如何在不影响干净文本性能的前提下,有效去除对抗扰动
  7. 本文要解决什么:设计一个即插即用、高效的对抗防御模块
  8. 切入角度:扩散模型擅长预测和去除噪声——将对抗扰动类比为隐空间中的噪声
  9. 核心idea一句话:用扩散层在隐状态空间去噪对抗扰动,并通过多次采样集成增强鲁棒性

方法详解

整体框架

两阶段训练:(1) 对抗训练阶段训练编码器+分类器 → (2) 扩散训练阶段冻结编码器,只训练扩散层预测隐状态中的随机噪声。推理时:编码器提取隐状态 \(h\) → 采样 \(k\) 个噪声向量加入 → 扩散层迭代去噪 \(t'\) 步 → 集成平均 → 分类器输出。

关键设计

  1. 扩散层去噪器 (Diffusion Denoiser):
  2. 做什么:学习预测和去除隐状态中的噪声
  3. 核心思路:单层 Transformer + 时间嵌入,训练时对干净隐状态 \(h\) 加随机噪声 \(h_t = \sqrt{\bar\alpha_t}h + \sqrt{1-\bar\alpha_t}\epsilon\),学习预测 \(\epsilon\)
  4. 设计动机:将对抗扰动视为隐空间噪声,用扩散的去噪能力消除

  5. 推理时的加噪-去噪-集成:

  6. 采样 \(k\) 个噪声向量创建 \(k\) 个含噪隐状态变体
  7. 每个变体经 \(t'\) 步反向扩散去噪
  8. 平均所有去噪隐状态后分类
  9. 设计动机:加噪引入随机性防止攻击者找到稳定的脆弱词;集成仅在扩散层做,无需重跑编码器

  10. 即插即用设计:

  11. 扩散层训练时冻结编码器和分类器,可接在任何对抗训练方法后面
  12. 仅增加一层 Transformer 的参数量
  13. 集成在隐状态层做而非输入层做,效率远高于传统集成

损失函数 / 训练策略

  • 对抗训练:使用 FreeLB++ 或 RSMI
  • 扩散训练:MSE 损失 \(L = \mathbb{E}_{t,h,\epsilon}[\|\epsilon - \epsilon_\theta(h_t, t)\|^2]\),训练 100 epoch
  • 推理:5 步去噪,10 个集成

实验关键数据

主实验(BERT backbone, AGNews, AUA%)

方法 Clean% TextFooler TextBugger BERT-Attack
Fine-tuned 94.4 10.2 25.4 27.1
FreeLB++ 95.0 54.7 56.5 44.6
RSMI 94.3 52.6 56.7 55.4
DiffuseDef-FreeLB++ 94.8 84.5 - -

关键发现

  • DiffuseDef 在不损失干净准确率的情况下显著提升对抗鲁棒性
  • 集成在扩散层做比传统全模型集成快得多(仅增加约 10% 推理时间 vs 10x)
  • 加噪步骤使攻击者难以找到稳定的脆弱词,攻击需要的查询次数大幅增加
  • 去噪后的对抗隐状态在潜空间中更接近干净文本隐状态

亮点与洞察

  • 扩散去噪用于NLP对抗防御的思路新颖且有效——在隐空间而非输入空间去噪是关键创新
  • 即插即用设计使其可以叠加在任何对抗训练方法上进一步提升鲁棒性
  • 集成效率高:在一层 Transformer 上做 10 次集成远比在整个 BERT 上做 10 次集成高效

局限性 / 可改进方向

  • 仅在分类任务上验证,生成任务(如翻译、摘要)的适用性未探索
  • 扩散去噪步数等超参需要调整,不同数据集最优设置不同
  • 对非扰动型攻击(如语义改写攻击)的防御效果未验证

相关工作与启发

  • vs RMLM: RMLM 在文本层面去噪,DiffuseDef 在隐状态层去噪,后者更有效
  • vs ATINTER: ATINTER 用 T5 重写对抗文本,DiffuseDef 直接在表示空间操作更高效
  • vs CV 中的 DiffPure: DiffPure 对整个输入图像做扩散净化,DiffuseDef 只在最后一层隐状态做

评分

  • 新颖性: ⭐⭐⭐⭐ 扩散去噪用于NLP对抗防御的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 3数据集+5种攻击+多基线+白盒+效率分析
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,算法框图直观
  • 价值: ⭐⭐⭐⭐ 即插即用的防御方法,实用价值高