跳转至

Writing Like the Best: Exemplar-Based Expository Text Generation

会议: ACL 2025
arXiv: 2505.18859
代码: https://github.com/liuyuxiang512/RePA.git
领域: 文本生成
关键词: 范例驱动生成, 说明文生成, 自适应模仿, 长文本生成, 检索增强

一句话总结

定义"基于范例的说明文生成"新任务——给定一篇关于源主题的范例文本,生成关于目标主题的说明文,提出 Recurrent Plan-then-Adapt(RePA)框架,通过逐段模仿规划+检索增强自适应生成+双记忆机制,在 Wikipedia/RoleEE/USNews 三个数据集上显著优于 GPT-4 和 o1 基线。

研究背景与动机

  1. 领域现状:大规模说明文生成(如大学简介、产品描述、人物传记)需要在保持结构一致性的同时为不同主题生成事实准确的内容。现有方法要么需要大量领域语料,要么倾向于无约束的开放式生成。
  2. 现有痛点:(a) 直接让 LLM 生成缺乏结构一致性;(b) 简单替换主题名(Default)会导致事实错误;(c) 长文本生成中容易出现前后不一致和冗余。
  3. 核心矛盾:源主题和目标主题的"对应性"(结构相似)与"变异性"(具体事实不同)之间的平衡。例如两个行政区的维基百科文章结构相似但人口数据、历史事件完全不同。
  4. 本文要解决什么? 如何从单个范例中模仿结构、同时自适应地填充目标主题的事实内容。
  5. 切入角度:借鉴人类写作学习过程——通过研究优秀范文来学习写作结构,同时填入自己的内容。提出"自适应模仿"(Adaptive Imitation)概念。
  6. 核心idea一句话:将范例文本分解为问题大纲(Plan),对每个问题用检索+置信度校准回答(Adapt),用双记忆保证长文本一致性。

方法详解

整体框架

输入为源主题范例文本 \(\mathbf{X}\)、目标主题 \(\mathbf{t_y}\) 和外部知识 \(\mathbf{K}\)。RePA 将输入文本按句子分段,递归处理每个段落——Plan 阶段提取大纲问题,Adapt 阶段回答问题并生成输出段落。类似 LSTM 的递归结构,使用短期记忆(处理输入指代)和长期记忆(避免输出冗余)。

关键设计

  1. Plan 模块(模仿规划):
  2. Clarify: 用短期记忆 \(h_t\)(最近几个输入段落的关键信息)解决分段后的指代歧义,如将"it"替换为具体实体名
  3. Outline: 将澄清后的段落转化为以问题形式表达的大纲 \(q_t\),然后通过简单的主题词替换将问题从源主题迁移到目标主题(如将"Belebeyevsky District 的人口是多少?"改为"Davlekanovsky District 的人口是多少?")
  4. 设计动机:问题形式的大纲既简洁又可迁移——只需替换主题名即可,保持了结构一致性

  5. Adapt 模块(自适应生成):

  6. Calibrated-QA: 将大纲问题用检索增强的方式回答,关键创新是引入置信度校准——让 LLM 对回答附加置信度评分,低置信度的回答被拒绝(标记为"NA")。这解决了源主题特有问题在目标主题上无答案的情况(如源主题有"楚瓦什语名称"但目标主题没有)
  7. Write: 基于已回答的事实,生成输出段落,同时用长期记忆 \(c_t\)(所有历史输出的摘要)去除冗余
  8. 设计动机:"不完美的大纲只要正确处理就可以接受"——容错比完美规划更实际

  9. 双记忆机制:

  10. 短期记忆 \(h_t\): 存储最近输入段落的关键信息,用于 Clarify 阶段解决指代
  11. 长期记忆 \(c_t\): 存储所有历史输出的摘要,用于 Write 阶段避免重复
  12. 设计动机:类似 LSTM 的门控记忆但在文本空间操作,使模型能处理任意长度文本

损失函数 / 训练策略

  • 无需训练——纯提示工程方法,所有组件通过提示 GPT-4 或 LLaMA-3 实现
  • 使用 Wikipedia2Vec 进行主题配对,确保源/目标主题相似度 >0.95

实验关键数据

主实验(GPT-4, Wikipedia 数据集)

方法 ROUGE-L BERTScore NLI-E(↑) Halluc(↓) 模仿性(↑) 适应性(↑)
LLM (GPT-4) 0.640 0.653 0.378 26.96 4.52 2.44
o1+Retr 0.871 0.867 0.781 9.02 4.32 3.02
SR+Retr 0.865 0.862 0.726 7.73 4.22 3.04
RePA 0.889 0.893 0.774 5.69 4.16 3.90

消融实验

配置 效果 说明
w/o Clarify 模仿性和连贯性下降 指代歧义影响大纲质量
w/o Calibrated-QA 事实性下降,幻觉增加 无法拒绝不可回答的问题
w/o 短期记忆 模仿性下降 分段处理时丢失上下文
w/o 长期记忆 输出冗余增加 无法检测已生成内容

关键发现

  • RePA 在适应性(Adaptiveness)上大幅领先所有基线——GPT-4 的 2.44 vs RePA 的 3.90
  • 检索增强对所有方法都有提升,但 RePA 的置信度校准比简单检索更有效
  • 从 GPT-4 迁移到 LLaMA-3 后性能保持良好,证明框架的通用性
  • Default(简单替换主题名)模仿性最高(5.00)但适应性最低(1.08),正好说明了两个目标的 trade-off
  • 在 USNews(领域特定)数据集上,RePA 优势最明显,因为该领域的跨主题变异性更大

亮点与洞察

  • "自适应模仿"概念精确捕捉了任务核心——不是照搬也不是重写,而是保持结构模仿中做事实适应。这种思路可迁移到模板驱动的内容生产系统。
  • 问题作为大纲的设计巧妙——问题天然具有迁移性(只需改主题词),且为检索增强生成提供了明确的查询意图。
  • 置信度校准机制解决了"不完美大纲"问题——承认某些源主题的谈论点在目标主题上不存在,优雅地跳过而非强行生成。
  • 类 LSTM 的文本空间递归架构是有趣的设计范式——将神经网络中的向量操作替换为 LLM 提示操作。

局限性 / 可改进方向

  • 纯提示方法,每个段落需多次调用 LLM,推理成本高
  • 文本长度受限于实验设置,未验证超长文本(数千词)的效果
  • 仅用 LLM-as-Judge 评估模仿性和适应性,主观性较强
  • 源/目标主题需高度相似(cosine >0.95),不适用于跨领域迁移
  • 置信度校准依赖 LLM 自身的校准能力,可能不够准确

相关工作与启发

  • vs 直接提示 LLM: LLM 无法同时保持结构一致性和事实准确性,RePA 通过分离 Plan 和 Adapt 解决
  • vs Self-Refine: 迭代改进方向不明确,容易在结构和事实之间摇摆;RePA 的分模块设计目标更清晰
  • vs 传统 Plan-and-Generate: 传统方法假设规划完美可执行,RePA 的 Calibrated-QA 容错机制更务实
  • 该框架可应用于批量内容生产场景(如电商产品描述、招生简章)

评分

  • 新颖性: ⭐⭐⭐⭐ 定义了有实际需求的"基于范例的说明文生成"新任务,"自适应模仿"概念新颖,类LSTM文本递归架构是有趣的设计范式
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集(Wikipedia/RoleEE/USNews)+九种基线(含GPT-4/o1)+消融+人工评估+LLM评估,全面
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰(跨主题一致性 vs 跨主题变异性的平衡),图示直观,但方法描述因组件多略显冗长
  • 价值: ⭐⭐⭐⭐ 框架设计通用可迁移至批量内容生产场景(如电商产品描述、招生简章等模板化写作)