Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training¶

会议: ACL 2025
arXiv: 2502.12734
代码: GitHub
领域: ai_safety
关键词: machine-generated text detection, adversarial training, robustness, text perturbation, adversarial attack

一句话总结¶

提出 GREATER 对抗训练框架，同步训练对抗攻击器（Greater-A）和 MGT 检测器（Greater-D），对抗器通过代理模型梯度识别关键 token 并在嵌入空间扰动生成对抗样本，检测器从课程式对抗样本中学习泛化防御，在 16 种攻击下 ASR 降至 5.53%（SOTA 为 6.20%），攻击效率比 SOTA 快 4 倍。

研究背景与动机¶

领域现状：MGT 检测器（DetectGPT、水印等）在正常条件下效果好，但面临简单扰动（编辑/改写/提示修改）时准确率下降 30-50%。
现有痛点：(a) 现有防御方法（Text-RS、CERT-ED 等）无法泛化到未见过的攻击；(b) 对抗攻击方法要么需白盒访问，要么查询次数过多；(c) 文本领域的对抗训练泛化性不足。
核心矛盾：需要在黑盒设置下构建高效攻击样本用于对抗训练，且训练出的防御需泛化到多种不同攻击。
本文要解决什么？ 构建通用的 MGT 检测对抗训练框架，同时提升攻击效率和防御泛化性。
切入角度："以攻促防"——同步更新攻击器和检测器，使检测器从不断变强的攻击中学习防御能力。
核心 idea 一句话：攻击器和检测器同步对抗训练，在嵌入空间贪心搜索生成高效对抗样本，实现对多种攻击的泛化防御。

方法详解¶

整体框架¶

Greater-A（攻击器）：代理模型提取 token embedding → 评分网络识别重要 token → 嵌入空间梯度上升扰动 → 贪心搜索+剪枝生成替换词 → 输出对抗样本。Greater-D（检测器）：用正常样本+对抗样本混合训练，与 Greater-A 同步更新。

关键设计¶

重要 Token 识别 + 嵌入扰动:
做什么：用代理模型的隐状态训练评分网络 \(\mathcal{F}_\theta\)，识别 top-k 重要 token，在嵌入空间做梯度上升扰动
核心思路：扰动后的嵌入 \(\tilde{e}_t = e_t + \mathbf{1}_{[t \in \mathbf{I}]} \delta_t\)，\(\delta_t\) 通过梯度上升最大化检测器损失
设计动机：嵌入空间扰动比离散 token 替换更精确地指导候选词生成
贪心搜索 + 剪枝:
做什么：将扰动后的嵌入映射回词表找候选词，贪心选择使检测器预测变化最大的替换
核心思路：按重要性排序依次尝试替换，剪掉不改变预测的候选以减少查询次数
设计动机：黑盒设置下需高查询效率，贪心+剪枝比暴力搜索少 4× 查询
同步对抗训练:
做什么：在同一训练步中更新 Greater-A 和 Greater-D
核心思路：随着训练推进 Greater-A 越来越强，Greater-D 从课程式的对抗样本中学习，泛化到未见攻击
设计动机：不同于先攻击再防御的两阶段方法，同步更新使防御不局限于特定攻击

实验关键数据¶

防御效果（ASR%，越低越好）¶

方法	10种扰动平均	6种对抗攻击平均	总平均
无防御	~35%	~85%	~55%
Text-RS	-	-	6.20%
TAVAT	-	-	~8%
Greater-D	-	-	5.53%

攻击效果（Greater-A vs SOTA攻击）¶

方法	ASR%	平均查询数
SOTA 攻击（TextFooler等）	88.13%	~400+
Greater-A	96.58%	~100 (4× fewer)

关键发现¶

Greater-D 在 16 种攻击（10 扰动+6 对抗）上全面优于 10 种现有防御方法
Greater-A 同时是最强攻击方法：ASR 96.58%（+8.45%），查询次数少 4 倍
同步更新是泛化防御的关键：非同步训练的防御只对训练时见过的攻击有效
嵌入空间扰动比离散 token 替换生成更自然的对抗样本

亮点与洞察¶

"以攻促防"的思路自然优雅——更强的攻击器训练出更强的防御器
通过代理模型在黑盒设置下实现了接近白盒效果的重要 token 识别
攻击和防御可以分别作为独立模块使用，实用性强

局限性 / 可改进方向¶

代理模型与目标检测器的差异可能限制重要 token 识别的准确性
仅在英语上评估
未测试对翻译攻击等跨语言攻击的鲁棒性
对抗训练增加了训练成本

评分¶

新颖性: ⭐⭐⭐⭐ 同步对抗训练+嵌入扰动的组合在 MGT 检测领域新颖
实验充分度: ⭐⭐⭐⭐⭐ 16 种攻击、10 种防御基线、攻防双评估
写作质量: ⭐⭐⭐⭐ 威胁模型建模规范，方法描述清晰
价值: ⭐⭐⭐⭐⭐ 攻击和防御都达到 SOTA，对 MGT 检测鲁棒性研究有直接贡献