跳转至

Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

会议: NeurIPS 2025
arXiv: 2506.07001
代码: chengez/Adversarial-Paraphrasing
作者: Yize Cheng, Vinu Sankar Sadasivan, Mehrdad Saberi, Shoumik Saha, Soheil Feizi (UMD)
领域: human_understanding / AI安全
关键词: AI文本检测, 对抗攻击, 文本改写, 水印绕过, 可控文本生成

一句话总结

提出 Adversarial Paraphrasing——一种无需训练的通用攻击框架,在逐 token 改写时利用 AI 文本检测器的反馈信号选择"最像人写"的 token,使改写后的 AI 文本在 8 种检测器上平均 T@1%F 下降 87.88%,且具有跨检测器的强迁移性。

研究背景与动机

  1. LLM 滥用风险日益严重:GPT、Gemini、LLaMA 等大模型能生成流畅、连贯的文本,带来抄袭和社会工程攻击等安全隐患。
  2. AI 文本检测器逐渐成熟:已有三大类检测方法——基于神经网络的训练式分类器(OpenAI-RoBERTa、RADAR、MAGE)、零样本检测器(Fast-DetectGPT、GLTR)和水印方案(KGW、Unigram、SynthID)。
  3. 简单改写攻击已部分失效:早期检测器可被一轮或递归改写击败,但 RADAR 等经过对抗训练的检测器对简单改写已具鲁棒性——简单改写甚至反而提高了 RADAR 的检出率(T@1%F +8.57%)。
  4. 核心问题:能否设计一种通用、免训练的攻击框架,在不知道部署端具体检测方案的情况下,稳定绕过各类 AI 文本检测器?
  5. 先前攻击的局限:DIPPER 需要专门训练 T5 改写模型;Watermark Stealing 只针对水印检测器,不可迁移到其他检测方式。
  6. 可控生成的启示:PPLM、BEAST 等工作表明,在解码时引入外部分类器的引导信号可以控制文本属性,本文将这一思路应用于"人类化"改写。

方法详解

整体框架

Adversarial Paraphrasing 由两个现成模块组成,无需任何额外训练:

  • 改写器 (Paraphraser):LLaMA-3-8B-Instruct,通过定制 system prompt 指示其充当改写模型。
  • 引导检测器 (Guidance Detector):任一训练式 AI 文本检测器(如 OpenAI-RoBERTa-Large),用于在每个解码步骤提供"AI 分数"。

工作流程:将 AI 生成的原始文本输入改写器,改写器自回归地逐 token 生成改写文本;在每一步中,不是直接采样,而是由引导检测器对候选 token 打分,选择使已生成序列获得最低 AI 分数的那个 token。

三个关键设计

  1. Top-p/Top-k 候选过滤:在每步解码时,先用 top-p(p=0.99)和 top-k(k=50)从改写器的 logit 分布中筛选候选 token 集合,确保候选 token 在语义和语法上合理。
  2. 检测器引导的贪心选择:对每个候选 token,将其拼接到已生成序列后,送入引导检测器得到 AI 分数;选取 AI 分数最低(即最"像人写")的候选 token 追加到输出序列。这相当于在深度为 1 的、以检测器分数为目标的 beam search。
  3. System Prompt 工程:通过精心设计的系统提示词将通用指令遵循 LLM 转化为改写器,无需微调即可使用任意 instruction-tuned LLM 作为改写模块。

损失/目标函数

本方法无显式损失函数,而是在推理时进行目标导向的解码:

\[y^* = \arg\min_{c \in \text{candidates}} \mathcal{D}(y_{:m} \oplus c)\]

其中 \(\mathcal{D}\) 是引导检测器的 AI 分数输出,\(y_{:m}\) 是已生成的序列,\(c\) 是候选 token。通过每步最小化 AI 分数,整体改写文本在统计特征上逼近人类书写文本的分布。

实验

实验设置

  • 数据集:MAGE 数据集(2000 条 AI 文本 + 2000 条人类文本,100-500 tokens);水印实验用 LLaMA-3.1-8B 生成水印文本。
  • 检测器:8 种——4 种训练式(OpenAI-RoBERTa-Base/Large、MAGE、RADAR)、2 种水印(KGW、Unigram)、2 种零样本(Fast-DetectGPT、GLTR)。
  • 基线:简单改写、递归改写(2 轮 / 3 轮)。

主要结果(Table 2 摘要)

部署检测器 无攻击 T@1%F 简单改写 T@1%F AdvPara (RoBERTa-L) T@1%F 相对下降
RoBERTa-Large 0.163 0.096 0.000 -100%
RoBERTa-Base 0.182 0.119 0.000 -100%
MAGE 0.768 0.616 0.142 -81.5%
RADAR 0.124 0.140 ↑ 0.044 -64.5%
KGW 水印 1.000 0.295 0.131 -86.9%
Unigram 水印 0.999 0.609 0.294 -70.6%
Fast-DetectGPT 0.323 0.326 ↑ 0.003 -99.0%
GLTR 0.174 0.049 0.001 -99.4%

关键发现

  1. 通用绕过:以 OpenAI-RoBERTa-Large 为引导检测器,在全部 8 种部署检测器上平均 T@1%F 相对下降 87.88%,远超简单改写的 30.27%。
  2. 迁移矩阵: 任何一个训练式检测器做引导,都能有效绕过其他所有 7 种检测器(包括水印和零样本),验证了攻击的通用迁移性。
  3. 简单改写反效果:RADAR 和 Fast-DetectGPT 在简单改写后检出率反而上升(分别 +8.57%、+15.03%),说明对抗训练使其对朴素改写免疫。
  4. 文本质量保持:GPT-4o 自动评分显示,对抗改写质量(4.48±0.77)与简单改写(4.75±0.54)接近,仅有轻微下降,远优于递归改写 3 轮(4.26±0.74)。

亮点

  • 免训练 + 通用:仅需一个现成 LLM + 一个现成检测器,无需微调任何模型,即可攻击三大类共 8 种检测器。
  • 思路优雅:将受控文本生成与对抗攻击巧妙结合,在解码层面用检测器信号引导 token 选择,深度仅为 1 的 beam search 即已足够有效。
  • 迁移性的直觉解释有说服力:不同检测器倾向于收敛到相同的"人类文本分布"边界,因此绕过一个检测器的改写自然也能绕过其他检测器。
  • 实验全面:覆盖训练式 / 水印 / 零样本三类检测器,并提供完整的迁移矩阵和文本质量分析。

局限性

  • 推理效率:每个 token 解码都需要对最多 k=50 个候选运行一次检测器前向传播,速度远慢于普通解码,实际部署成本高。
  • 依赖训练式引导检测器:目前仅验证了用训练式分类器做引导,未探索用零样本检测器或水印检测信号做引导的可行性。
  • 文本质量-攻击效果的权衡:虽然总体质量下降轻微,但在部分样本上对抗改写可能引入不自然表达,长文本下的质量退化尚未充分分析。
  • 评估数据长度受限:主要在 100-500 tokens 的短文本上评估,对长篇文章(论文、报告)的攻击效果不明。
  • 防御侧视角不足:文章主要展示攻击能力,对如何构建更鲁棒的检测器(如对抗训练+对抗改写的军备竞赛)缺少深入讨论。

相关工作

  • AI 文本检测:OpenAI-RoBERTa (Solaiman et al.)、RADAR (Hu et al.) 通过对抗训练增强鲁棒性、MAGE (Li et al.) 用多样数据集提升泛化、DetectGPT/Fast-DetectGPT 利用对数概率曲率做零样本检测、KGW/Unigram/SynthID 水印方案。
  • 检测器攻击:Sadasivan et al. 的递归改写攻击和理论不可能性分析、DIPPER (Krishna et al.) 的 T5 改写模型、Watermark Stealing (Jovanovic et al.) 针对水印的窃取攻击。
  • 可控文本生成:PPLM (Dathathri et al.) 用属性分类器梯度引导解码、BEAST 用 beam search 引导生成对抗 prompt、InstructCTG 用自然语言指令控制生成——本文方法是无梯度的,更简洁高效。

评分

  • 新颖性: ⭐⭐⭐⭐ — 将检测器反馈融入改写解码的思路新颖,且实现上免训练、免梯度,设计简洁。
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖 8 种检测器、3 大类方法、完整迁移矩阵、文本质量分析,比较全面。
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,算法伪代码和可视化到位,迁移性直觉解释易懂。
  • 价值: ⭐⭐⭐⭐ — 对 AI 文本检测领域的安全性敲响警钟,攻击的通用性和迁移性为防御端提供了重要参考。