跳转至

HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring

会议/期刊: ACL 2025
arXiv: 2506.02959
代码: -
领域: AIGC检测 / 人机协作文本检测
关键词: machine-generated text detection, fine-grained detection, human-AI coauthoring, word-level attribution, sequence labeling

一句话总结

提出面向人机协作写作场景的细粒度机器生成文本(MGT)检测基准 HACo-Det,通过多轮局部改写流水线自动构建带词级归属标注的 11,200 篇人机共创文本,并将七种主流检测器改造为词级序列标注模式进行系统评估,揭示当前方法在细粒度检测上的巨大改进空间。

研究背景与动机

  • 现实需求:GPT-4o Canvas、Notion AI、Wordcraft 等人机协作写作系统日益普及,文本中人类与 AI 的贡献交织混合,传统文档级二分类检测(全文标"人写"或"机写")已无法满足细粒度著作权归属鉴定的实际需求。
  • 现有数据集缺陷:(1) 主流数据集将"人写开头 + LLM 续写"整段标记为 MGT,忽视了人写前缀的归属;(2) 将改写后文本直接全部标记为机器生成,但词形未变化的词理应保留原始归属;(3) 仅模拟单轮协作,与真实多轮交互场景存在显著差距。
  • 检测方法瓶颈:Metric-based 方法(DetectGPT、Fast-DetectGPT 等)依赖白盒 token 级统计量,在文档级尚有效,但缺乏向词级/句级细粒度推广的能力;Finetune-based 方法虽更强但跨域跨模型泛化仍是开放问题。
  • 本文切入点:设计词级标注的多轮改写数据集 HACo-Det,将 MGT 检测统一建模为词级序列标注任务 \(D_w(T_w) = L_w\),句级标签通过多数投票聚合获得,系统对比七种检测器在 IND / OOD-Domain / OOD-Model 三种设置下的表现。

方法详解

整体框架

三阶段流水线——原始文本采样 → 多轮 LLM 局部改写 → 词级/句级 grounded 标注

  • 数据来源:四个领域的人类写作文本(新闻 XSum、故事 WritingPrompts、学术论文 Dagpap24、维基百科 Wikipedia_en),每域 2,800 篇,共 11,200 篇
  • 生成器:四种指令调优 LLM(Llama-3、Mixtral、GPT-4o mini、GPT-4o),分别搭配不同的改写指令模板
  • 标注方式:基于词级匹配的 grounded attribution labeling——通过对比改写前后文本的词跨度匹配确定每个词是 HWT 还是 MGT

关键设计

1. 多轮局部改写策略:每轮使用 NLTK 将文本切分为句子序列,按照预设算法(Algorithm 1)选取一段连续句子片段送入 LLM 改写。每轮仅改写已标记为 MGT 的片段,避免著作权重复歧义。改写轮数与文本长度成正比,短文本(新闻)约 2-3 轮,长文本(维基百科)可达 6 轮以上,由此实现不同 AI 介入比例的自然分布。

2. 词级 Grounded 归属标注:改写后片段 \(S'_{\text{span}}\) 中的词默认标记为 MGT,但若某词在改写前对应片段 \(S_{\text{span}}\) 中以相同词形(含时态变化)出现,则保留其原始 HWT 标签。这一规则避免了"改写=完全机器生成"的过度简化,使得即使在 LLM 改写后的段落中,保留原文表述的词仍归属于人类作者。

3. 统一序列标注与句级聚合:将所有检测任务统一建模为词级二分类序列标注。对于句级检测,采用多数投票聚合——句子 \(s_i\) 中 MGT 词数超过 HWT 词数则该句标记为 MGT:\(L_{s_i} = \arg\max_c \sum_{k=1}^{m} \mathbb{I}(L_{w_{i,k}} = c)\)。七种主流检测器(DeBERTa、SeqXGPT、DetectGPT、Fast-DetectGPT、NPR、LRR、GLTR)均被改造适配此框架。

数据集统计

领域 样本数 平均 MGT 片段数 MGT 词占比 平均文本长度 (词)
News (XSum) 2,800 2.44 45% 1,489
Story (WritingPrompts) 2,800 3.97 40% 1,964
Paper (Dagpap24) 2,800 4.56 32% 4,558
Wikipedia 2,800 6.01 26% 7,724
合计 11,200 4.25 36% 3,934

数据分析显示:GPT-4o 改写幅度最大(与原文相似度最低),Llama-3 改写最温和;Paper 和 Wikipedia 领域文本显著更长(4k-8k 词),更利于跨域泛化。

实验

主实验:域内检测(IND)

检测器 类别 F1-W (词级) F1-S (句级) AUC-W AUC-S
Random - 0.433 0.497 - -
DeBERTa Finetune 0.831 0.966 - -
SeqXGPT Finetune 0.513 0.674 - -
DetectGPT Metric (w/ perturb) 0.375 0.459 0.482 0.501
Fast-DetectGPT Metric (w/ perturb) 0.501 0.533 0.507 0.510
NPR Metric (w/ perturb) 0.414 0.473 0.485 0.509
log prob Metric (w/o perturb) 0.479 0.444 0.482 0.511
LRR Metric (w/o perturb) 0.475 0.516 0.483 0.510
entropy Metric (w/o perturb) 0.479 0.392 0.488 0.511

核心结论:Metric-based 方法在词级检测上全面接近随机猜测(平均 F1 ≈ 0.46),DeBERTa 以 0.831 F1-W 一枝独秀。

OOD 泛化实验

泛化设置 DeBERTa F1-W 范围 SeqXGPT F1-W 范围 Metric-based F1-W
IND(基线) 0.831 0.513 0.375–0.501
OOD-Domain(跨域) 0.776–0.830 0.450–0.490 多数略有波动
OOD-Model(跨模型) 0.768–0.854 0.462–0.498 多数略有波动
  • DeBERTa 跨域跨模型均保持 0.77+ 的 F1-W,泛化能力远优于其他方法
  • 训练于长文本域(Paper/Wikipedia)时 OOD 表现甚至优于 IND,说明长文本的多样语言模式有助泛化
  • 训练于 GPT-4o 语料时跨模型泛化更好,因其改写幅度最大、信号更强

文档级 AI 比例预测

方法 DeBERTa SeqXGPT DetectGPT Fast-DetectGPT NPR LRR
句级误差 1.78% 12.00% 10.70% 14.75% 21.01% 17.44%
词级误差 1.84% 10.00% 43.48% 12.65% 32.37% 12.00%

DeBERTa 的文档级 AI 比例预测误差不到 2%,可为实际审核场景提供可靠的 AI 介入度估计。

关键发现

  • Metric-based 方法全面失败:所有统计度量检测器在词级检测上 F1 ≈ 随机水平,简单 token 级度量无法支撑细粒度检测;即使采用扰动(DetectGPT 系列)也无明显改善
  • 语义表征是关键:DeBERTa 通过监督微调获取嵌入级语义特征,可有效区分人机混合词序列;SeqXGPT 虽也是 finetune 方法但架构适配不足
  • 上下文窗口是瓶颈:对长文本做 chunking 会损失上下文信息;DeBERTa 和 SeqXGPT 的 F1 均随输入 chunk 长度增大而单调提升
  • 零样本检测远未可行:冻结 DeBERTa 编码器仅训练分类头时,IND F1-W 从 0.831 降至 0.571;Metric-based 方法的句级零样本同样接近随机
  • 跨改写模式泛化困难:在 HACo-Det 上训练的 DeBERTa 迁移到 SeqXGPT-Bench(不同改写流水线)时性能显著下降

亮点

  • 任务设计贴合真实场景:多轮局部改写模拟人机交互协作,远比"人写开头 + AI 续写"更真实
  • 词级 grounded 标注方法合理:基于词匹配保留原始归属,避免改写即机器生成的过度简化
  • 实验设计系统全面:IND / OOD-Domain / OOD-Model 三种设置 × 4 领域 × 4 生成器的完整矩阵
  • 提供 AI 比例预测视角:将细粒度检测与文档级 AI 介入度估计关联,具有实际审核应用价值

局限性

  • 词级"著作权转移"定义具有主观性,基于词形匹配的标注规则过于简单,未考虑语义等价替换
  • 仅覆盖改写(paraphrase)场景,未涉及 LLM 插入新内容、删除原文、结构重组等更复杂的协作模式
  • 数据集仅包含英文,未评估多语言或跨语言检测能力
  • 每篇文本仅由单个 LLM 改写,未模拟多 LLM 协作或人类多轮主动编辑的场景
  • 未提出新的检测方法,主要贡献在数据集和基准评估

相关工作

  • 文档级 MGT 检测:DetectGPT (Mitchell et al., 2023) 基于对数概率曲率、Fast-DetectGPT (Bao et al., 2023) 引入条件概率加速、RAID (Dugan et al., 2024) 大规模鲁棒性基准
  • 细粒度检测:Mixtext 三分类 (Gao et al., 2024)、边界检测 (Kushnareva et al., 2024)、MGT 定位 (Zhang et al., 2024c)、句级多特征融合 (Tao et al., 2024)
  • 检测器鲁棒性:Shi et al. (2024) 对抗攻击(词替换+提示攻击)、Wang et al. (2024) 多层次扰动测试发现大多数检测器性能显著下降
  • 人机协作写作:Lee et al. (2022)、Chakrabarty et al. (2022) 协作诗歌写作、Reza et al. (2024, 2025) 协作内容生成

评分

维度 分数 简评
新颖性 ⭐⭐⭐⭐ 首个多轮改写+词级归属标注的人机共创检测基准
技术深度 ⭐⭐⭐ 重在数据集与系统评估,检测方法本身为改造已有工作
实验充分度 ⭐⭐⭐⭐⭐ IND/OOD-Domain/OOD-Model全覆盖,7种方法3种粒度
实用价值 ⭐⭐⭐⭐ AI比例预测视角有实际审核价值,揭示现有方法的差距

相关论文