Writing Like the Best: Exemplar-Based Expository Text Generation¶
会议: ACL 2025
arXiv: 2505.18859
代码: https://github.com/liuyuxiang512/RePA.git
领域: 文本生成
关键词: 范例驱动生成, 说明文生成, 自适应模仿, 长文本生成, 检索增强
一句话总结¶
定义"基于范例的说明文生成"新任务——给定一篇关于源主题的范例文本,生成关于目标主题的说明文,提出 Recurrent Plan-then-Adapt(RePA)框架,通过逐段模仿规划+检索增强自适应生成+双记忆机制,在 Wikipedia/RoleEE/USNews 三个数据集上显著优于 GPT-4 和 o1 基线。
研究背景与动机¶
- 领域现状:大规模说明文生成(如大学简介、产品描述、人物传记)需要在保持结构一致性的同时为不同主题生成事实准确的内容。现有方法要么需要大量领域语料,要么倾向于无约束的开放式生成。
- 现有痛点:(a) 直接让 LLM 生成缺乏结构一致性;(b) 简单替换主题名(Default)会导致事实错误;(c) 长文本生成中容易出现前后不一致和冗余。
- 核心矛盾:源主题和目标主题的"对应性"(结构相似)与"变异性"(具体事实不同)之间的平衡。例如两个行政区的维基百科文章结构相似但人口数据、历史事件完全不同。
- 本文要解决什么? 如何从单个范例中模仿结构、同时自适应地填充目标主题的事实内容。
- 切入角度:借鉴人类写作学习过程——通过研究优秀范文来学习写作结构,同时填入自己的内容。提出"自适应模仿"(Adaptive Imitation)概念。
- 核心idea一句话:将范例文本分解为问题大纲(Plan),对每个问题用检索+置信度校准回答(Adapt),用双记忆保证长文本一致性。
方法详解¶
整体框架¶
输入为源主题范例文本 \(\mathbf{X}\)、目标主题 \(\mathbf{t_y}\) 和外部知识 \(\mathbf{K}\)。RePA 将输入文本按句子分段,递归处理每个段落——Plan 阶段提取大纲问题,Adapt 阶段回答问题并生成输出段落。类似 LSTM 的递归结构,使用短期记忆(处理输入指代)和长期记忆(避免输出冗余)。
关键设计¶
- Plan 模块(模仿规划):
- Clarify: 用短期记忆 \(h_t\)(最近几个输入段落的关键信息)解决分段后的指代歧义,如将"it"替换为具体实体名
- Outline: 将澄清后的段落转化为以问题形式表达的大纲 \(q_t\),然后通过简单的主题词替换将问题从源主题迁移到目标主题(如将"Belebeyevsky District 的人口是多少?"改为"Davlekanovsky District 的人口是多少?")
-
设计动机:问题形式的大纲既简洁又可迁移——只需替换主题名即可,保持了结构一致性
-
Adapt 模块(自适应生成):
- Calibrated-QA: 将大纲问题用检索增强的方式回答,关键创新是引入置信度校准——让 LLM 对回答附加置信度评分,低置信度的回答被拒绝(标记为"NA")。这解决了源主题特有问题在目标主题上无答案的情况(如源主题有"楚瓦什语名称"但目标主题没有)
- Write: 基于已回答的事实,生成输出段落,同时用长期记忆 \(c_t\)(所有历史输出的摘要)去除冗余
-
设计动机:"不完美的大纲只要正确处理就可以接受"——容错比完美规划更实际
-
双记忆机制:
- 短期记忆 \(h_t\): 存储最近输入段落的关键信息,用于 Clarify 阶段解决指代
- 长期记忆 \(c_t\): 存储所有历史输出的摘要,用于 Write 阶段避免重复
- 设计动机:类似 LSTM 的门控记忆但在文本空间操作,使模型能处理任意长度文本
损失函数 / 训练策略¶
- 无需训练——纯提示工程方法,所有组件通过提示 GPT-4 或 LLaMA-3 实现
- 使用 Wikipedia2Vec 进行主题配对,确保源/目标主题相似度 >0.95
实验关键数据¶
主实验(GPT-4, Wikipedia 数据集)¶
| 方法 | ROUGE-L | BERTScore | NLI-E(↑) | Halluc(↓) | 模仿性(↑) | 适应性(↑) |
|---|---|---|---|---|---|---|
| LLM (GPT-4) | 0.640 | 0.653 | 0.378 | 26.96 | 4.52 | 2.44 |
| o1+Retr | 0.871 | 0.867 | 0.781 | 9.02 | 4.32 | 3.02 |
| SR+Retr | 0.865 | 0.862 | 0.726 | 7.73 | 4.22 | 3.04 |
| RePA | 0.889 | 0.893 | 0.774 | 5.69 | 4.16 | 3.90 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| w/o Clarify | 模仿性和连贯性下降 | 指代歧义影响大纲质量 |
| w/o Calibrated-QA | 事实性下降,幻觉增加 | 无法拒绝不可回答的问题 |
| w/o 短期记忆 | 模仿性下降 | 分段处理时丢失上下文 |
| w/o 长期记忆 | 输出冗余增加 | 无法检测已生成内容 |
关键发现¶
- RePA 在适应性(Adaptiveness)上大幅领先所有基线——GPT-4 的 2.44 vs RePA 的 3.90
- 检索增强对所有方法都有提升,但 RePA 的置信度校准比简单检索更有效
- 从 GPT-4 迁移到 LLaMA-3 后性能保持良好,证明框架的通用性
- Default(简单替换主题名)模仿性最高(5.00)但适应性最低(1.08),正好说明了两个目标的 trade-off
- 在 USNews(领域特定)数据集上,RePA 优势最明显,因为该领域的跨主题变异性更大
亮点与洞察¶
- "自适应模仿"概念精确捕捉了任务核心——不是照搬也不是重写,而是保持结构模仿中做事实适应。这种思路可迁移到模板驱动的内容生产系统。
- 问题作为大纲的设计巧妙——问题天然具有迁移性(只需改主题词),且为检索增强生成提供了明确的查询意图。
- 置信度校准机制解决了"不完美大纲"问题——承认某些源主题的谈论点在目标主题上不存在,优雅地跳过而非强行生成。
- 类 LSTM 的文本空间递归架构是有趣的设计范式——将神经网络中的向量操作替换为 LLM 提示操作。
局限性 / 可改进方向¶
- 纯提示方法,每个段落需多次调用 LLM,推理成本高
- 文本长度受限于实验设置,未验证超长文本(数千词)的效果
- 仅用 LLM-as-Judge 评估模仿性和适应性,主观性较强
- 源/目标主题需高度相似(cosine >0.95),不适用于跨领域迁移
- 置信度校准依赖 LLM 自身的校准能力,可能不够准确
相关工作与启发¶
- vs 直接提示 LLM: LLM 无法同时保持结构一致性和事实准确性,RePA 通过分离 Plan 和 Adapt 解决
- vs Self-Refine: 迭代改进方向不明确,容易在结构和事实之间摇摆;RePA 的分模块设计目标更清晰
- vs 传统 Plan-and-Generate: 传统方法假设规划完美可执行,RePA 的 Calibrated-QA 容错机制更务实
- 该框架可应用于批量内容生产场景(如电商产品描述、招生简章)
评分¶
- 新颖性: ⭐⭐⭐⭐ 定义了有实际需求的"基于范例的说明文生成"新任务,"自适应模仿"概念新颖,类LSTM文本递归架构是有趣的设计范式
- 实验充分度: ⭐⭐⭐⭐ 三个数据集(Wikipedia/RoleEE/USNews)+九种基线(含GPT-4/o1)+消融+人工评估+LLM评估,全面
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰(跨主题一致性 vs 跨主题变异性的平衡),图示直观,但方法描述因组件多略显冗长
- 价值: ⭐⭐⭐⭐ 框架设计通用可迁移至批量内容生产场景(如电商产品描述、招生简章等模板化写作)