Frankentext: Stitching Random Text Fragments into Long-Form Narratives¶
会议: ACL 2026 arXiv: 2505.18128 代码: GitHub 领域: aigc_detection 关键词: AIGC检测, 混合作者归因, 可控文本生成, AI文本检测器, 人机协作写作
一句话总结¶
提出Frankentext范式,让LLM在极端约束下(90%文本逐字复制自人类写作)拼接随机人类文本片段为连贯长篇叙事,揭示现有AI文本检测器在混合作者场景下的严重失败(72%的Frankentext被误判为人类写作)。
研究背景与动机¶
领域现状: 随着LLM生成文本质量不断提高,AI文本检测成为学术诚信和内容溯源的关键需求。现有检测器主要基于二分类(AI vs 人类)的假设。
现有痛点: 现实中存在大量人机协作写作的"灰色地带"——文本并非纯AI或纯人类撰写,而是两者混合。现有二分类检测器(如Binoculars、FastDetectGPT)无法有效识别这类混合文本。
核心矛盾: 当前检测方法依赖表面特征(如困惑度、统计签名),但当AI生成内容中大量嵌入真实人类文本时,这些统计特征会被稀释,导致检测失效。
本文目标: 系统研究一种极端的可控生成范式——Frankentext,让LLM在大部分token必须逐字复制自人类写作的约束下生成连贯叙事,以揭示检测器的脆弱性并推动细粒度检测方法的发展。
切入角度: 灵感来自弗兰肯斯坦——用不同来源的"碎片"拼装出一个完整的"生物"。LLM充当作曲家而非作家,从数千个随机人类文本片段中选取、排列、拼接成连贯故事。
核心idea: 通过prompt-based pipeline让LLM选择并拼接随机采样的人类文本段落,在维持指定复制率(如90%)的同时生成连贯、相关的叙事,从而对现有AI检测器构成根本性挑战。
方法详解¶
整体框架¶
Frankentext pipeline包含两个主要阶段:首先,从大型书籍语料库(Books3,包含197K本书、1.56亿段落)中随机采样1500个人类文本片段(约103K BPE tokens),连同写作prompt一起输入LLM,让其在约束下生成初稿;然后,通过迭代编辑阶段修正矛盾和不连贯之处。
关键设计¶
-
初稿生成(Draft Generation):
- 功能:让LLM从随机人类文本片段中选取并组合为初步叙事
- 核心思路:向LLM提供写作prompt和1500个随机采样的段落级人类文本片段,要求其生成约500词的故事,其中90%内容必须逐字复制自给定片段,仅允许少量连接词和过渡短语
- 设计动机:利用LLM隐式搜索组合空间的能力,从不相关的人类文本中找到可组合的片段,这对人类来说几乎不可行
-
迭代编辑(Iterative Polishing):
- 功能:修复初稿中的矛盾、连续性错误和语法问题
- 核心思路:使用同一LLM识别并应用最小编辑(类似self-correct),在保持逐字复制约束和写作prompt的同时提高连贯性,最多迭代3次
- 设计动机:初稿可能包含角色矛盾、事实冲突、无关内容等问题,编辑阶段可将连贯性从68%提升至81%
-
复制率控制与检测反馈(Copy Rate Control):
- 功能:确保最终输出满足预设的人类文本复制比例
- 核心思路:可选地使用ROUGE-L或AI文本检测器本身作为反馈信号,如果复制率不足或被检测为AI生成,则提示LLM进行修订
- 设计动机:在复制率和连贯性之间取得平衡,同时最大化逃避检测的概率
实验关键数据¶
主实验¶
| 模型 | 复制率 | 相关性% | 连贯性% | Pangram检出AI% | Binoculars检出% | FastDetectGPT检出% |
|---|---|---|---|---|---|---|
| Gemini-2.5-Pro (vanilla) | - | 100 | 100 | 100 | 52 | 99 |
| Gemini-2.5-Pro (FT) | 75% | 100 | 81 | 4 | 0 | 1 |
| o4-mini (FT) | 68% | 56 | 29 | 24 | 0 | 1 |
| Claude-3.7-Sonnet (FT) | 64% | 95 | 73 | 17 | 2 | 16 |
| DeepSeek-R1 (FT) | 42% | 91 | 72 | 74 | 0 | 0 |
| Qwen-3-32B thinking (FT) | 36% | 91 | 54 | 85 | 52 | 92 |
消融实验¶
| 配置 | 关键指标 | 备注 |
|---|---|---|
| 移除编辑阶段 | 连贯性68%→81% | 编辑阶段显著提升连贯性 |
| 使用相关段落(FAISS检索) | 复制率仅38%,检测率下降 | 相关性反而降低复制率 |
| 使用句子而非段落 | 连贯性89%,检测率+14% | 短单元提升连贯但更易检测 |
| 最大上下文(100K段落) | 复制率76%,连贯性89% | 性能最好但成本10倍 |
| 单本书(Monte Cristo) | 连贯性89%,相关性97% | 单一来源也能有效工作 |
| 要求25%人类文本 | Pangram AI检出54% | 更多AI文本→更易检测 |
| 要求90%人类文本 | Pangram AI检出4% | 更多人类文本→更难检测 |
关键发现¶
- Gemini-2.5-Pro是最佳Frankentext生成模型,兼顾连贯性(81%)、相关性(100%)和低检测率(4%)
- Binoculars和FastDetectGPT对Frankentext几乎完全失效(检出率<2%),Pangram表现稍好但仍漏检59%
- 人类评估者平均能识别56%的Frankentext为AI参与,优于自动检测器
- 复制率与检测率呈反比关系:人类文本比例越高越难检测,但连贯性也随之下降
- Frankentext中AI关键词(如"Elara")出现频率从vanilla的686次锐减至10次
亮点与洞察¶
- 灰色地带的发现:Frankentext打破了"AI vs 人类"的二元假设,揭示了一个检测器难以处理的混合作者空间
- 成本效益:每篇Frankentext仅需\(1.32(Gemini),远低于人机协作数据集CoAuthor的\)2.50/篇,且无需复杂设置
- Token级标注:每篇Frankentext自带复制vs生成的token级标签,可直接用于训练混合作者检测模型
- 人类感知独特:评估者称赞Frankentext具有独特的"人类感"——富有想象力的前提、生动的描写和冷幽默,这正是因为其大部分内容确实来自人类写作
局限与展望¶
- 依赖大规模高质量同领域人类文本语料,低资源语言和专业领域(如技术手册)难以直接应用
- 复制率指标可能低估实际人类文本占比
- 本文仅暴露攻击面,未提出具体防御方案
- 非虚构领域(如新闻)的Frankentext质量仍有提升空间,生成文本偏向叙事风格
- Books3包含版权作品,引发创作归属权和版权问题
相关工作与启发¶
- vs Binoculars/FastDetectGPT: 这两个基于困惑度的检测器对Frankentext几乎完全失效,说明表面统计特征不足以应对混合作者文本
- vs Pangram: 作为训练型分类器,Pangram能部分检测混合文本(37%标记为mixed),但仍漏检59%的Gemini Frankentext
- vs CoAuthor: Frankentext提供了一种更廉价、可规模化的混合作者数据生成方式,且覆盖词级和句级多种粒度
- vs Paraphrasing攻击: 不同于改写原文来逃避检测,Frankentext直接使用原始人类文本,是一种全新的攻击向量
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 提出全新的文本生成范式,将LLM定位为"作曲家"而非"作者",视角非常新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 5个模型系列、3个检测器、人类评估、多个消融实验,覆盖面极广
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,弗兰肯斯坦的类比生动,但某些部分可再精炼
- 价值: ⭐⭐⭐⭐⭐ 对AI文本检测领域具有重要警示意义,推动了从二分类向细粒度检测的转变