Writing Like the Best: Exemplar-Based Expository Text Generation¶

会议: ACL 2025
arXiv: 2505.18859
代码: https://github.com/liuyuxiang512/RePA.git
领域: 文本生成
关键词: 范例驱动生成, 说明文生成, 自适应模仿, 长文本生成, 检索增强

一句话总结¶

定义"基于范例的说明文生成"新任务——给定一篇关于源主题的范例文本，生成关于目标主题的说明文，提出 Recurrent Plan-then-Adapt（RePA）框架，通过逐段模仿规划+检索增强自适应生成+双记忆机制，在 Wikipedia/RoleEE/USNews 三个数据集上显著优于 GPT-4 和 o1 基线。

研究背景与动机¶

领域现状：大规模说明文生成（如大学简介、产品描述、人物传记）需要在保持结构一致性的同时为不同主题生成事实准确的内容。现有方法要么需要大量领域语料，要么倾向于无约束的开放式生成。
现有痛点：(a) 直接让 LLM 生成缺乏结构一致性；(b) 简单替换主题名（Default）会导致事实错误；(c) 长文本生成中容易出现前后不一致和冗余。
核心矛盾：源主题和目标主题的"对应性"（结构相似）与"变异性"（具体事实不同）之间的平衡。例如两个行政区的维基百科文章结构相似但人口数据、历史事件完全不同。
本文要解决什么？ 如何从单个范例中模仿结构、同时自适应地填充目标主题的事实内容。
切入角度：借鉴人类写作学习过程——通过研究优秀范文来学习写作结构，同时填入自己的内容。提出"自适应模仿"（Adaptive Imitation）概念。
核心idea一句话：将范例文本分解为问题大纲（Plan），对每个问题用检索+置信度校准回答（Adapt），用双记忆保证长文本一致性。

方法详解¶

整体框架¶

输入为源主题范例文本 \(\mathbf{X}\)、目标主题 \(\mathbf{t_y}\) 和外部知识 \(\mathbf{K}\)。RePA 将输入文本按句子分段，递归处理每个段落——Plan 阶段提取大纲问题，Adapt 阶段回答问题并生成输出段落。类似 LSTM 的递归结构，使用短期记忆（处理输入指代）和长期记忆（避免输出冗余）。

关键设计¶

Plan 模块（模仿规划）:
Clarify: 用短期记忆 \(h_t\)（最近几个输入段落的关键信息）解决分段后的指代歧义，如将"it"替换为具体实体名
Outline: 将澄清后的段落转化为以问题形式表达的大纲 \(q_t\)，然后通过简单的主题词替换将问题从源主题迁移到目标主题（如将"Belebeyevsky District 的人口是多少？"改为"Davlekanovsky District 的人口是多少？"）
设计动机：问题形式的大纲既简洁又可迁移——只需替换主题名即可，保持了结构一致性
Adapt 模块（自适应生成）:
Calibrated-QA: 将大纲问题用检索增强的方式回答，关键创新是引入置信度校准——让 LLM 对回答附加置信度评分，低置信度的回答被拒绝（标记为"NA"）。这解决了源主题特有问题在目标主题上无答案的情况（如源主题有"楚瓦什语名称"但目标主题没有）
Write: 基于已回答的事实，生成输出段落，同时用长期记忆 \(c_t\)（所有历史输出的摘要）去除冗余
设计动机："不完美的大纲只要正确处理就可以接受"——容错比完美规划更实际
双记忆机制:
短期记忆 \(h_t\): 存储最近输入段落的关键信息，用于 Clarify 阶段解决指代
长期记忆 \(c_t\): 存储所有历史输出的摘要，用于 Write 阶段避免重复
设计动机：类似 LSTM 的门控记忆但在文本空间操作，使模型能处理任意长度文本

损失函数 / 训练策略¶

无需训练——纯提示工程方法，所有组件通过提示 GPT-4 或 LLaMA-3 实现
使用 Wikipedia2Vec 进行主题配对，确保源/目标主题相似度 >0.95

实验关键数据¶

主实验（GPT-4, Wikipedia 数据集）¶

方法	ROUGE-L	BERTScore	NLI-E(↑)	Halluc(↓)	模仿性(↑)	适应性(↑)
LLM (GPT-4)	0.640	0.653	0.378	26.96	4.52	2.44
o1+Retr	0.871	0.867	0.781	9.02	4.32	3.02
SR+Retr	0.865	0.862	0.726	7.73	4.22	3.04
RePA	0.889	0.893	0.774	5.69	4.16	3.90

消融实验¶

配置	效果	说明
w/o Clarify	模仿性和连贯性下降	指代歧义影响大纲质量
w/o Calibrated-QA	事实性下降，幻觉增加	无法拒绝不可回答的问题
w/o 短期记忆	模仿性下降	分段处理时丢失上下文
w/o 长期记忆	输出冗余增加	无法检测已生成内容

关键发现¶

RePA 在适应性（Adaptiveness）上大幅领先所有基线——GPT-4 的 2.44 vs RePA 的 3.90
检索增强对所有方法都有提升，但 RePA 的置信度校准比简单检索更有效
从 GPT-4 迁移到 LLaMA-3 后性能保持良好，证明框架的通用性
Default（简单替换主题名）模仿性最高（5.00）但适应性最低（1.08），正好说明了两个目标的 trade-off
在 USNews（领域特定）数据集上，RePA 优势最明显，因为该领域的跨主题变异性更大

亮点与洞察¶

"自适应模仿"概念精确捕捉了任务核心——不是照搬也不是重写，而是保持结构模仿中做事实适应。这种思路可迁移到模板驱动的内容生产系统。
问题作为大纲的设计巧妙——问题天然具有迁移性（只需改主题词），且为检索增强生成提供了明确的查询意图。
置信度校准机制解决了"不完美大纲"问题——承认某些源主题的谈论点在目标主题上不存在，优雅地跳过而非强行生成。
类 LSTM 的文本空间递归架构是有趣的设计范式——将神经网络中的向量操作替换为 LLM 提示操作。

局限性 / 可改进方向¶

纯提示方法，每个段落需多次调用 LLM，推理成本高
文本长度受限于实验设置，未验证超长文本（数千词）的效果
仅用 LLM-as-Judge 评估模仿性和适应性，主观性较强
源/目标主题需高度相似（cosine >0.95），不适用于跨领域迁移
置信度校准依赖 LLM 自身的校准能力，可能不够准确

评分¶

新颖性: ⭐⭐⭐⭐ 定义了有实际需求的"基于范例的说明文生成"新任务，"自适应模仿"概念新颖，类LSTM文本递归架构是有趣的设计范式
实验充分度: ⭐⭐⭐⭐ 三个数据集（Wikipedia/RoleEE/USNews）+九种基线（含GPT-4/o1）+消融+人工评估+LLM评估，全面
写作质量: ⭐⭐⭐⭐ 动机阐述清晰（跨主题一致性 vs 跨主题变异性的平衡），图示直观，但方法描述因组件多略显冗长
价值: ⭐⭐⭐⭐ 框架设计通用可迁移至批量内容生产场景（如电商产品描述、招生简章等模板化写作）