Frankentext: Stitching Random Text Fragments into Long-Form Narratives¶

会议: ACL 2026 arXiv: 2505.18128 代码: GitHub 领域: aigc_detection 关键词: AIGC检测, 混合作者归因, 可控文本生成, AI文本检测器, 人机协作写作

一句话总结¶

提出Frankentext范式，让LLM在极端约束下（90%文本逐字复制自人类写作）拼接随机人类文本片段为连贯长篇叙事，揭示现有AI文本检测器在混合作者场景下的严重失败（72%的Frankentext被误判为人类写作）。

研究背景与动机¶

领域现状: 随着LLM生成文本质量不断提高，AI文本检测成为学术诚信和内容溯源的关键需求。现有检测器主要基于二分类（AI vs 人类）的假设。

现有痛点: 现实中存在大量人机协作写作的"灰色地带"——文本并非纯AI或纯人类撰写，而是两者混合。现有二分类检测器（如Binoculars、FastDetectGPT）无法有效识别这类混合文本。

核心矛盾: 当前检测方法依赖表面特征（如困惑度、统计签名），但当AI生成内容中大量嵌入真实人类文本时，这些统计特征会被稀释，导致检测失效。

本文目标: 系统研究一种极端的可控生成范式——Frankentext，让LLM在大部分token必须逐字复制自人类写作的约束下生成连贯叙事，以揭示检测器的脆弱性并推动细粒度检测方法的发展。

切入角度: 灵感来自弗兰肯斯坦——用不同来源的"碎片"拼装出一个完整的"生物"。LLM充当作曲家而非作家，从数千个随机人类文本片段中选取、排列、拼接成连贯故事。

核心idea: 通过prompt-based pipeline让LLM选择并拼接随机采样的人类文本段落，在维持指定复制率（如90%）的同时生成连贯、相关的叙事，从而对现有AI检测器构成根本性挑战。

方法详解¶

整体框架¶

Frankentext pipeline包含两个主要阶段：首先，从大型书籍语料库（Books3，包含197K本书、1.56亿段落）中随机采样1500个人类文本片段（约103K BPE tokens），连同写作prompt一起输入LLM，让其在约束下生成初稿；然后，通过迭代编辑阶段修正矛盾和不连贯之处。

关键设计¶

初稿生成（Draft Generation）:
- 功能：让LLM从随机人类文本片段中选取并组合为初步叙事
- 核心思路：向LLM提供写作prompt和1500个随机采样的段落级人类文本片段，要求其生成约500词的故事，其中90%内容必须逐字复制自给定片段，仅允许少量连接词和过渡短语
- 设计动机：利用LLM隐式搜索组合空间的能力，从不相关的人类文本中找到可组合的片段，这对人类来说几乎不可行
迭代编辑（Iterative Polishing）:
- 功能：修复初稿中的矛盾、连续性错误和语法问题
- 核心思路：使用同一LLM识别并应用最小编辑（类似self-correct），在保持逐字复制约束和写作prompt的同时提高连贯性，最多迭代3次
- 设计动机：初稿可能包含角色矛盾、事实冲突、无关内容等问题，编辑阶段可将连贯性从68%提升至81%
复制率控制与检测反馈（Copy Rate Control）:
- 功能：确保最终输出满足预设的人类文本复制比例
- 核心思路：可选地使用ROUGE-L或AI文本检测器本身作为反馈信号，如果复制率不足或被检测为AI生成，则提示LLM进行修订
- 设计动机：在复制率和连贯性之间取得平衡，同时最大化逃避检测的概率

实验关键数据¶

主实验¶

模型	复制率	相关性%	连贯性%	Pangram检出AI%	Binoculars检出%	FastDetectGPT检出%
Gemini-2.5-Pro (vanilla)	-	100	100	100	52	99
Gemini-2.5-Pro (FT)	75%	100	81	4	0	1
o4-mini (FT)	68%	56	29	24	0	1
Claude-3.7-Sonnet (FT)	64%	95	73	17	2	16
DeepSeek-R1 (FT)	42%	91	72	74	0	0
Qwen-3-32B thinking (FT)	36%	91	54	85	52	92

消融实验¶

配置	关键指标	备注
移除编辑阶段	连贯性68%→81%	编辑阶段显著提升连贯性
使用相关段落(FAISS检索)	复制率仅38%，检测率下降	相关性反而降低复制率
使用句子而非段落	连贯性89%，检测率+14%	短单元提升连贯但更易检测
最大上下文(100K段落)	复制率76%，连贯性89%	性能最好但成本10倍
单本书(Monte Cristo)	连贯性89%，相关性97%	单一来源也能有效工作
要求25%人类文本	Pangram AI检出54%	更多AI文本→更易检测
要求90%人类文本	Pangram AI检出4%	更多人类文本→更难检测

关键发现¶

Gemini-2.5-Pro是最佳Frankentext生成模型，兼顾连贯性(81%)、相关性(100%)和低检测率(4%)
Binoculars和FastDetectGPT对Frankentext几乎完全失效（检出率<2%），Pangram表现稍好但仍漏检59%
人类评估者平均能识别56%的Frankentext为AI参与，优于自动检测器
复制率与检测率呈反比关系：人类文本比例越高越难检测，但连贯性也随之下降
Frankentext中AI关键词（如"Elara"）出现频率从vanilla的686次锐减至10次

亮点与洞察¶

灰色地带的发现：Frankentext打破了"AI vs 人类"的二元假设，揭示了一个检测器难以处理的混合作者空间
成本效益：每篇Frankentext仅需\(1.32（Gemini），远低于人机协作数据集CoAuthor的\)2.50/篇，且无需复杂设置
Token级标注：每篇Frankentext自带复制vs生成的token级标签，可直接用于训练混合作者检测模型
人类感知独特：评估者称赞Frankentext具有独特的"人类感"——富有想象力的前提、生动的描写和冷幽默，这正是因为其大部分内容确实来自人类写作

局限与展望¶

依赖大规模高质量同领域人类文本语料，低资源语言和专业领域（如技术手册）难以直接应用
复制率指标可能低估实际人类文本占比
本文仅暴露攻击面，未提出具体防御方案
非虚构领域（如新闻）的Frankentext质量仍有提升空间，生成文本偏向叙事风格
Books3包含版权作品，引发创作归属权和版权问题

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出全新的文本生成范式，将LLM定位为"作曲家"而非"作者"，视角非常新颖
实验充分度: ⭐⭐⭐⭐⭐ 5个模型系列、3个检测器、人类评估、多个消融实验，覆盖面极广
写作质量: ⭐⭐⭐⭐ 论文结构清晰，弗兰肯斯坦的类比生动，但某些部分可再精炼
价值: ⭐⭐⭐⭐⭐ 对AI文本检测领域具有重要警示意义，推动了从二分类向细粒度检测的转变