DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising¶

会议: ACL 2025
arXiv: 2407.00248
代码: https://github.com/Nickeilf/DiffuseDef
领域: AI Safety
关键词: 对抗防御, 扩散模型, 文本对抗攻击, 去噪, 鲁棒性

一句话总结¶

DiffuseDef 提出了一种将扩散层作为去噪器插入编码器和分类器之间的对抗防御方法，通过扩散训练学会预测隐状态噪声，推理时对对抗隐状态加噪+迭代去噪+集成，在黑盒和白盒攻击下达 SOTA 鲁棒性。

两阶段训练：(1) 对抗训练阶段训练编码器+分类器 → (2) 扩散训练阶段冻结编码器，只训练扩散层预测隐状态中的随机噪声。推理时：编码器提取隐状态 \(h\) → 采样 \(k\) 个噪声向量加入 → 扩散层迭代去噪 \(t'\) 步 → 集成平均 → 分类器输出。

扩散层去噪器 (Diffusion Denoiser):
做什么：学习预测和去除隐状态中的噪声
核心思路：单层 Transformer + 时间嵌入，训练时对干净隐状态 \(h\) 加随机噪声 \(h_t = \sqrt{\bar\alpha_t}h + \sqrt{1-\bar\alpha_t}\epsilon\)，学习预测 \(\epsilon\)
设计动机：将对抗扰动视为隐空间噪声，用扩散的去噪能力消除
推理时的加噪-去噪-集成:
采样 \(k\) 个噪声向量创建 \(k\) 个含噪隐状态变体
每个变体经 \(t'\) 步反向扩散去噪
平均所有去噪隐状态后分类
设计动机：加噪引入随机性防止攻击者找到稳定的脆弱词；集成仅在扩散层做，无需重跑编码器
即插即用设计:
扩散层训练时冻结编码器和分类器，可接在任何对抗训练方法后面
仅增加一层 Transformer 的参数量
集成在隐状态层做而非输入层做，效率远高于传统集成

对抗训练：使用 FreeLB++ 或 RSMI
扩散训练：MSE 损失 \(L = \mathbb{E}_{t,h,\epsilon}[\|\epsilon - \epsilon_\theta(h_t, t)\|^2]\)，训练 100 epoch
推理：5 步去噪，10 个集成

方法	Clean%	TextFooler	TextBugger	BERT-Attack
Fine-tuned	94.4	10.2	25.4	27.1
FreeLB++	95.0	54.7	56.5	44.6
RSMI	94.3	52.6	56.7	55.4
DiffuseDef-FreeLB++	94.8	84.5	-	-