Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training¶
会议: ACL 2025
arXiv: 2502.12734
代码: GitHub
领域: ai_safety
关键词: machine-generated text detection, adversarial training, robustness, text perturbation, adversarial attack
一句话总结¶
提出 GREATER 对抗训练框架,同步训练对抗攻击器(Greater-A)和 MGT 检测器(Greater-D),对抗器通过代理模型梯度识别关键 token 并在嵌入空间扰动生成对抗样本,检测器从课程式对抗样本中学习泛化防御,在 16 种攻击下 ASR 降至 5.53%(SOTA 为 6.20%),攻击效率比 SOTA 快 4 倍。
研究背景与动机¶
- 领域现状:MGT 检测器(DetectGPT、水印等)在正常条件下效果好,但面临简单扰动(编辑/改写/提示修改)时准确率下降 30-50%。
- 现有痛点:(a) 现有防御方法(Text-RS、CERT-ED 等)无法泛化到未见过的攻击;(b) 对抗攻击方法要么需白盒访问,要么查询次数过多;(c) 文本领域的对抗训练泛化性不足。
- 核心矛盾:需要在黑盒设置下构建高效攻击样本用于对抗训练,且训练出的防御需泛化到多种不同攻击。
- 本文要解决什么? 构建通用的 MGT 检测对抗训练框架,同时提升攻击效率和防御泛化性。
- 切入角度:"以攻促防"——同步更新攻击器和检测器,使检测器从不断变强的攻击中学习防御能力。
- 核心 idea 一句话:攻击器和检测器同步对抗训练,在嵌入空间贪心搜索生成高效对抗样本,实现对多种攻击的泛化防御。
方法详解¶
整体框架¶
Greater-A(攻击器):代理模型提取 token embedding → 评分网络识别重要 token → 嵌入空间梯度上升扰动 → 贪心搜索+剪枝生成替换词 → 输出对抗样本。Greater-D(检测器):用正常样本+对抗样本混合训练,与 Greater-A 同步更新。
关键设计¶
- 重要 Token 识别 + 嵌入扰动:
- 做什么:用代理模型的隐状态训练评分网络 \(\mathcal{F}_\theta\),识别 top-k 重要 token,在嵌入空间做梯度上升扰动
- 核心思路:扰动后的嵌入 \(\tilde{e}_t = e_t + \mathbf{1}_{[t \in \mathbf{I}]} \delta_t\),\(\delta_t\) 通过梯度上升最大化检测器损失
-
设计动机:嵌入空间扰动比离散 token 替换更精确地指导候选词生成
-
贪心搜索 + 剪枝:
- 做什么:将扰动后的嵌入映射回词表找候选词,贪心选择使检测器预测变化最大的替换
- 核心思路:按重要性排序依次尝试替换,剪掉不改变预测的候选以减少查询次数
-
设计动机:黑盒设置下需高查询效率,贪心+剪枝比暴力搜索少 4× 查询
-
同步对抗训练:
- 做什么:在同一训练步中更新 Greater-A 和 Greater-D
- 核心思路:随着训练推进 Greater-A 越来越强,Greater-D 从课程式的对抗样本中学习,泛化到未见攻击
- 设计动机:不同于先攻击再防御的两阶段方法,同步更新使防御不局限于特定攻击
实验关键数据¶
防御效果(ASR%,越低越好)¶
| 方法 | 10种扰动平均 | 6种对抗攻击平均 | 总平均 |
|---|---|---|---|
| 无防御 | ~35% | ~85% | ~55% |
| Text-RS | - | - | 6.20% |
| TAVAT | - | - | ~8% |
| Greater-D | - | - | 5.53% |
攻击效果(Greater-A vs SOTA攻击)¶
| 方法 | ASR% | 平均查询数 |
|---|---|---|
| SOTA 攻击(TextFooler等) | 88.13% | ~400+ |
| Greater-A | 96.58% | ~100 (4× fewer) |
关键发现¶
- Greater-D 在 16 种攻击(10 扰动+6 对抗)上全面优于 10 种现有防御方法
- Greater-A 同时是最强攻击方法:ASR 96.58%(+8.45%),查询次数少 4 倍
- 同步更新是泛化防御的关键:非同步训练的防御只对训练时见过的攻击有效
- 嵌入空间扰动比离散 token 替换生成更自然的对抗样本
亮点与洞察¶
- "以攻促防"的思路自然优雅——更强的攻击器训练出更强的防御器
- 通过代理模型在黑盒设置下实现了接近白盒效果的重要 token 识别
- 攻击和防御可以分别作为独立模块使用,实用性强
局限性 / 可改进方向¶
- 代理模型与目标检测器的差异可能限制重要 token 识别的准确性
- 仅在英语上评估
- 未测试对翻译攻击等跨语言攻击的鲁棒性
- 对抗训练增加了训练成本
相关工作与启发¶
- vs RADAR: RADAR 用 paraphraser 做对抗器,只能防已知攻击;Greater 同步训练泛化到未知攻击
- vs OUTFOX: 依赖对抗样本的 ICL 示例,Greater 不需要额外示例
- vs TextFooler/BERT-Attack: Greater-A 作为攻击方法更高效(4× fewer queries)且更有效(+8.45% ASR)
评分¶
- 新颖性: ⭐⭐⭐⭐ 同步对抗训练+嵌入扰动的组合在 MGT 检测领域新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 16 种攻击、10 种防御基线、攻防双评估
- 写作质量: ⭐⭐⭐⭐ 威胁模型建模规范,方法描述清晰
- 价值: ⭐⭐⭐⭐⭐ 攻击和防御都达到 SOTA,对 MGT 检测鲁棒性研究有直接贡献