跳转至

Frankentext: Stitching Random Text Fragments into Long-Form Narratives

会议: ACL 2026 arXiv: 2505.18128 代码: GitHub 领域: aigc_detection 关键词: AIGC检测, 混合作者归因, 可控文本生成, AI文本检测器, 人机协作写作

一句话总结

提出Frankentext范式,让LLM在极端约束下(90%文本逐字复制自人类写作)拼接随机人类文本片段为连贯长篇叙事,揭示现有AI文本检测器在混合作者场景下的严重失败(72%的Frankentext被误判为人类写作)。

研究背景与动机

领域现状: 随着LLM生成文本质量不断提高,AI文本检测成为学术诚信和内容溯源的关键需求。现有检测器主要基于二分类(AI vs 人类)的假设。

现有痛点: 现实中存在大量人机协作写作的"灰色地带"——文本并非纯AI或纯人类撰写,而是两者混合。现有二分类检测器(如Binoculars、FastDetectGPT)无法有效识别这类混合文本。

核心矛盾: 当前检测方法依赖表面特征(如困惑度、统计签名),但当AI生成内容中大量嵌入真实人类文本时,这些统计特征会被稀释,导致检测失效。

本文目标: 系统研究一种极端的可控生成范式——Frankentext,让LLM在大部分token必须逐字复制自人类写作的约束下生成连贯叙事,以揭示检测器的脆弱性并推动细粒度检测方法的发展。

切入角度: 灵感来自弗兰肯斯坦——用不同来源的"碎片"拼装出一个完整的"生物"。LLM充当作曲家而非作家,从数千个随机人类文本片段中选取、排列、拼接成连贯故事。

核心idea: 通过prompt-based pipeline让LLM选择并拼接随机采样的人类文本段落,在维持指定复制率(如90%)的同时生成连贯、相关的叙事,从而对现有AI检测器构成根本性挑战。

方法详解

整体框架

Frankentext pipeline包含两个主要阶段:首先,从大型书籍语料库(Books3,包含197K本书、1.56亿段落)中随机采样1500个人类文本片段(约103K BPE tokens),连同写作prompt一起输入LLM,让其在约束下生成初稿;然后,通过迭代编辑阶段修正矛盾和不连贯之处。

关键设计

  1. 初稿生成(Draft Generation):

    • 功能:让LLM从随机人类文本片段中选取并组合为初步叙事
    • 核心思路:向LLM提供写作prompt和1500个随机采样的段落级人类文本片段,要求其生成约500词的故事,其中90%内容必须逐字复制自给定片段,仅允许少量连接词和过渡短语
    • 设计动机:利用LLM隐式搜索组合空间的能力,从不相关的人类文本中找到可组合的片段,这对人类来说几乎不可行
  2. 迭代编辑(Iterative Polishing):

    • 功能:修复初稿中的矛盾、连续性错误和语法问题
    • 核心思路:使用同一LLM识别并应用最小编辑(类似self-correct),在保持逐字复制约束和写作prompt的同时提高连贯性,最多迭代3次
    • 设计动机:初稿可能包含角色矛盾、事实冲突、无关内容等问题,编辑阶段可将连贯性从68%提升至81%
  3. 复制率控制与检测反馈(Copy Rate Control):

    • 功能:确保最终输出满足预设的人类文本复制比例
    • 核心思路:可选地使用ROUGE-L或AI文本检测器本身作为反馈信号,如果复制率不足或被检测为AI生成,则提示LLM进行修订
    • 设计动机:在复制率和连贯性之间取得平衡,同时最大化逃避检测的概率

实验关键数据

主实验

模型 复制率 相关性% 连贯性% Pangram检出AI% Binoculars检出% FastDetectGPT检出%
Gemini-2.5-Pro (vanilla) - 100 100 100 52 99
Gemini-2.5-Pro (FT) 75% 100 81 4 0 1
o4-mini (FT) 68% 56 29 24 0 1
Claude-3.7-Sonnet (FT) 64% 95 73 17 2 16
DeepSeek-R1 (FT) 42% 91 72 74 0 0
Qwen-3-32B thinking (FT) 36% 91 54 85 52 92

消融实验

配置 关键指标 备注
移除编辑阶段 连贯性68%→81% 编辑阶段显著提升连贯性
使用相关段落(FAISS检索) 复制率仅38%,检测率下降 相关性反而降低复制率
使用句子而非段落 连贯性89%,检测率+14% 短单元提升连贯但更易检测
最大上下文(100K段落) 复制率76%,连贯性89% 性能最好但成本10倍
单本书(Monte Cristo) 连贯性89%,相关性97% 单一来源也能有效工作
要求25%人类文本 Pangram AI检出54% 更多AI文本→更易检测
要求90%人类文本 Pangram AI检出4% 更多人类文本→更难检测

关键发现

  • Gemini-2.5-Pro是最佳Frankentext生成模型,兼顾连贯性(81%)、相关性(100%)和低检测率(4%)
  • Binoculars和FastDetectGPT对Frankentext几乎完全失效(检出率<2%),Pangram表现稍好但仍漏检59%
  • 人类评估者平均能识别56%的Frankentext为AI参与,优于自动检测器
  • 复制率与检测率呈反比关系:人类文本比例越高越难检测,但连贯性也随之下降
  • Frankentext中AI关键词(如"Elara")出现频率从vanilla的686次锐减至10次

亮点与洞察

  • 灰色地带的发现:Frankentext打破了"AI vs 人类"的二元假设,揭示了一个检测器难以处理的混合作者空间
  • 成本效益:每篇Frankentext仅需\(1.32(Gemini),远低于人机协作数据集CoAuthor的\)2.50/篇,且无需复杂设置
  • Token级标注:每篇Frankentext自带复制vs生成的token级标签,可直接用于训练混合作者检测模型
  • 人类感知独特:评估者称赞Frankentext具有独特的"人类感"——富有想象力的前提、生动的描写和冷幽默,这正是因为其大部分内容确实来自人类写作

局限与展望

  • 依赖大规模高质量同领域人类文本语料,低资源语言和专业领域(如技术手册)难以直接应用
  • 复制率指标可能低估实际人类文本占比
  • 本文仅暴露攻击面,未提出具体防御方案
  • 非虚构领域(如新闻)的Frankentext质量仍有提升空间,生成文本偏向叙事风格
  • Books3包含版权作品,引发创作归属权和版权问题

相关工作与启发

  • vs Binoculars/FastDetectGPT: 这两个基于困惑度的检测器对Frankentext几乎完全失效,说明表面统计特征不足以应对混合作者文本
  • vs Pangram: 作为训练型分类器,Pangram能部分检测混合文本(37%标记为mixed),但仍漏检59%的Gemini Frankentext
  • vs CoAuthor: Frankentext提供了一种更廉价、可规模化的混合作者数据生成方式,且覆盖词级和句级多种粒度
  • vs Paraphrasing攻击: 不同于改写原文来逃避检测,Frankentext直接使用原始人类文本,是一种全新的攻击向量

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 提出全新的文本生成范式,将LLM定位为"作曲家"而非"作者",视角非常新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个模型系列、3个检测器、人类评估、多个消融实验,覆盖面极广
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,弗兰肯斯坦的类比生动,但某些部分可再精炼
  • 价值: ⭐⭐⭐⭐⭐ 对AI文本检测领域具有重要警示意义,推动了从二分类向细粒度检测的转变