跳转至

Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training

会议: ACL 2025
arXiv: 2502.12734
代码: GitHub
领域: ai_safety
关键词: machine-generated text detection, adversarial training, robustness, text perturbation, adversarial attack

一句话总结

提出 GREATER 对抗训练框架,同步训练对抗攻击器(Greater-A)和 MGT 检测器(Greater-D),对抗器通过代理模型梯度识别关键 token 并在嵌入空间扰动生成对抗样本,检测器从课程式对抗样本中学习泛化防御,在 16 种攻击下 ASR 降至 5.53%(SOTA 为 6.20%),攻击效率比 SOTA 快 4 倍。

研究背景与动机

  1. 领域现状:MGT 检测器(DetectGPT、水印等)在正常条件下效果好,但面临简单扰动(编辑/改写/提示修改)时准确率下降 30-50%。
  2. 现有痛点:(a) 现有防御方法(Text-RS、CERT-ED 等)无法泛化到未见过的攻击;(b) 对抗攻击方法要么需白盒访问,要么查询次数过多;(c) 文本领域的对抗训练泛化性不足。
  3. 核心矛盾:需要在黑盒设置下构建高效攻击样本用于对抗训练,且训练出的防御需泛化到多种不同攻击。
  4. 本文要解决什么? 构建通用的 MGT 检测对抗训练框架,同时提升攻击效率和防御泛化性。
  5. 切入角度:"以攻促防"——同步更新攻击器和检测器,使检测器从不断变强的攻击中学习防御能力。
  6. 核心 idea 一句话:攻击器和检测器同步对抗训练,在嵌入空间贪心搜索生成高效对抗样本,实现对多种攻击的泛化防御。

方法详解

整体框架

Greater-A(攻击器):代理模型提取 token embedding → 评分网络识别重要 token → 嵌入空间梯度上升扰动 → 贪心搜索+剪枝生成替换词 → 输出对抗样本。Greater-D(检测器):用正常样本+对抗样本混合训练,与 Greater-A 同步更新。

关键设计

  1. 重要 Token 识别 + 嵌入扰动:
  2. 做什么:用代理模型的隐状态训练评分网络 \(\mathcal{F}_\theta\),识别 top-k 重要 token,在嵌入空间做梯度上升扰动
  3. 核心思路:扰动后的嵌入 \(\tilde{e}_t = e_t + \mathbf{1}_{[t \in \mathbf{I}]} \delta_t\)\(\delta_t\) 通过梯度上升最大化检测器损失
  4. 设计动机:嵌入空间扰动比离散 token 替换更精确地指导候选词生成

  5. 贪心搜索 + 剪枝:

  6. 做什么:将扰动后的嵌入映射回词表找候选词,贪心选择使检测器预测变化最大的替换
  7. 核心思路:按重要性排序依次尝试替换,剪掉不改变预测的候选以减少查询次数
  8. 设计动机:黑盒设置下需高查询效率,贪心+剪枝比暴力搜索少 4× 查询

  9. 同步对抗训练:

  10. 做什么:在同一训练步中更新 Greater-A 和 Greater-D
  11. 核心思路:随着训练推进 Greater-A 越来越强,Greater-D 从课程式的对抗样本中学习,泛化到未见攻击
  12. 设计动机:不同于先攻击再防御的两阶段方法,同步更新使防御不局限于特定攻击

实验关键数据

防御效果(ASR%,越低越好)

方法 10种扰动平均 6种对抗攻击平均 总平均
无防御 ~35% ~85% ~55%
Text-RS - - 6.20%
TAVAT - - ~8%
Greater-D - - 5.53%

攻击效果(Greater-A vs SOTA攻击)

方法 ASR% 平均查询数
SOTA 攻击(TextFooler等) 88.13% ~400+
Greater-A 96.58% ~100 (4× fewer)

关键发现

  • Greater-D 在 16 种攻击(10 扰动+6 对抗)上全面优于 10 种现有防御方法
  • Greater-A 同时是最强攻击方法:ASR 96.58%(+8.45%),查询次数少 4 倍
  • 同步更新是泛化防御的关键:非同步训练的防御只对训练时见过的攻击有效
  • 嵌入空间扰动比离散 token 替换生成更自然的对抗样本

亮点与洞察

  • "以攻促防"的思路自然优雅——更强的攻击器训练出更强的防御器
  • 通过代理模型在黑盒设置下实现了接近白盒效果的重要 token 识别
  • 攻击和防御可以分别作为独立模块使用,实用性强

局限性 / 可改进方向

  • 代理模型与目标检测器的差异可能限制重要 token 识别的准确性
  • 仅在英语上评估
  • 未测试对翻译攻击等跨语言攻击的鲁棒性
  • 对抗训练增加了训练成本

相关工作与启发

  • vs RADAR: RADAR 用 paraphraser 做对抗器,只能防已知攻击;Greater 同步训练泛化到未知攻击
  • vs OUTFOX: 依赖对抗样本的 ICL 示例,Greater 不需要额外示例
  • vs TextFooler/BERT-Attack: Greater-A 作为攻击方法更高效(4× fewer queries)且更有效(+8.45% ASR)

评分

  • 新颖性: ⭐⭐⭐⭐ 同步对抗训练+嵌入扰动的组合在 MGT 检测领域新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 16 种攻击、10 种防御基线、攻防双评估
  • 写作质量: ⭐⭐⭐⭐ 威胁模型建模规范,方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 攻击和防御都达到 SOTA,对 MGT 检测鲁棒性研究有直接贡献