Abstractive Snippet Generation¶
会议: ACL 2025
arXiv: 无公开预印本
代码: 无
领域: 文本生成
关键词: 摘要片段生成, 搜索引擎摘要, 查询聚焦摘要, 抽象化生成, 信息检索
一句话总结¶
本文提出了一种面向搜索引擎的抽象化片段生成方法,通过查询感知的摘要生成技术,为搜索结果页面生成比传统抽取式片段更简洁、信息量更大的文本摘要,显著提升用户搜索体验。
研究背景与动机¶
领域现状:搜索引擎在展示搜索结果时通常会为每个网页生成一段文本片段(snippet),帮助用户快速判断网页内容是否满足需求。当前主流搜索引擎使用的是抽取式方法(extractive snippet),即直接从网页中选取包含查询关键词的句子片段。
现有痛点:抽取式片段存在几个关键问题:一是经常截断句子,导致语义不完整;二是选取的片段可能分散在文档不同位置,缺乏连贯性;三是无法综合多段信息来回应复杂查询;四是当查询词在文档中出现频率很低时,生成的片段质量很差。
核心矛盾:用户希望通过片段快速获取问题答案,但抽取式方法只能做到"查找并展示",而非"理解并总结"。查询的信息需求与文档的原始表述之间存在语义鸿沟。
本文目标:设计一个端到端的抽象化片段生成系统,能够根据用户查询和目标文档,生成简洁、准确、连贯的摘要片段。
切入角度:借鉴查询聚焦摘要(Query-Focused Summarization, QFS)的框架,将片段生成重新定义为一个条件生成问题,同时引入针对搜索场景的特殊约束。
核心 idea:将片段生成建模为查询条件下的抽象化摘要任务,结合检索相关性信号和生成质量控制,生成既忠实于文档又针对查询优化的摘要片段。
方法详解¶
整体框架¶
输入为一个用户查询 \(q\) 和一个候选文档 \(d\),输出为一段简短的抽象化摘要片段 \(s\)。模型架构基于预训练的序列到序列模型(如 BART 或 T5),通过查询-文档联合编码和受控生成两个阶段完成任务。
关键设计¶
-
查询感知文档编码:
- 功能:将查询信息融入文档编码过程,使得编码器关注文档中与查询最相关的部分
- 核心思路:采用交叉注意力机制,将查询 token 作为额外的上下文注入到文档的自注意力层中。对于长文档,先通过段落级检索筛选出最相关的 top-k 段落,再进行精细编码。查询与文档的相关性分数 \(r(q, p_i)\) 用于加权不同段落的贡献
- 设计动机:文档可能很长且信息密度不均匀,查询提供了信息过滤的关键信号
-
忠实度感知解码器:
- 功能:在生成过程中保证片段内容忠实于原文档,避免幻觉
- 核心思路:在解码过程中引入复制机制(copy mechanism),允许模型直接从文档中复制关键术语和事实性信息。同时设置忠实度约束,通过对比学习使生成的片段与文档内容在语义空间中保持接近。解码器在每一步会同时计算生成概率和复制概率,通过门控机制动态选择
- 设计动机:搜索片段的核心要求是准确反映文档内容,幻觉性内容会严重误导用户
-
长度与信息密度控制:
- 功能:控制生成片段的长度和信息密度,使其适合搜索结果展示
- 核心思路:引入长度奖励机制,在训练时鼓励模型生成在指定长度范围内(通常80-160个词)的片段。同时通过信息覆盖度指标衡量生成片段对查询信息需求的满足程度,将其作为辅助训练目标
- 设计动机:搜索片段有严格的展示空间限制,需要在有限字数内最大化信息量
损失函数 / 训练策略¶
主训练损失为标准的序列生成交叉熵损失。辅助损失包括:忠实度对比损失(确保生成内容与源文档语义一致)、查询覆盖度损失(确保片段回应了查询需求)、以及长度惩罚项。训练数据来源于两个远程监督来源:搜索引擎日志中的点击数据和人工标注的查询-片段对。
实验关键数据¶
主实验¶
| 方法 | ROUGE-L | BERTScore | 忠实度 | 用户偏好率 |
|---|---|---|---|---|
| 本文方法 | 38.7 | 72.4 | 91.3% | 64.2% |
| BART-QFS | 35.2 | 69.8 | 87.5% | 48.7% |
| 抽取式 baseline | 31.4 | 65.3 | 96.8% | 35.1% |
| GPT-3.5 (zero-shot) | 33.9 | 70.1 | 82.4% | 52.0% |
消融实验¶
| 配置 | ROUGE-L | 忠实度 | 说明 |
|---|---|---|---|
| Full model | 38.7 | 91.3% | 完整模型 |
| w/o 查询感知编码 | 34.1 | 90.8% | 去掉查询信息后 ROUGE 掉了4.6 |
| w/o 复制机制 | 37.2 | 84.7% | 去掉复制后忠实度下降明显 |
| w/o 长度控制 | 36.8 | 89.5% | 生成长度方差变大 |
关键发现¶
- 忠实度和表达质量之间存在明显的 trade-off:纯抽取式方法忠实度最高但可读性差,纯生成方法灵活但容易出现幻觉。本文的复制+生成混合策略取得了较好的平衡
- 查询感知编码对于复杂信息需求类查询(如 how/why 类查询)提升最为显著,对简单导航类查询提升有限
- 用户偏好评估显示,人类明确偏好抽象化片段而非传统抽取式片段
亮点与洞察¶
- 将查询聚焦摘要的理论框架成功应用于搜索引擎片段生成这一工业场景,具有很强的实用价值。搜索引擎片段是每天数十亿次搜索的入口,改进它的影响面极大
- 忠实度感知解码器的设计巧妙地在灵活性和准确性之间取得了平衡,这种思路可以迁移到其他需要严格事实一致性的生成任务(如医疗文本摘要)
- 提出了针对片段生成的专门评估维度(查询覆盖度、信息密度、忠实度),补充了传统 ROUGE 指标的不足
局限与展望¶
- 训练数据依赖搜索引擎日志,可能存在数据偏差和隐私问题
- 对于多语言场景的适用性需要进一步验证
- 实时性要求:搜索引擎的延迟要求极高(毫秒级),抽象化生成的推理耗时是部署的主要障碍
- 可以探索将 RAG(检索增强生成)框架与片段生成结合,进一步提升质量
相关工作与启发¶
- vs QFS (Query-Focused Summarization): 传统 QFS 关注生成较长的摘要,本文聚焦于短片段生成,需要额外考虑展示约束和用户交互模式
- vs BART/T5 for summarization: 通用摘要模型不考虑查询条件,本文通过查询感知编码弥补了这一不足
- 该工作与 RAG 系统中的答案生成有密切关联,片段生成可视为 RAG 生成阶段的一个特殊应用
- 还与信息抽取中的 answer snippet extraction 相关,但本文采用的是生成式而非抽取式方案
评分¶
- 新颖性: ⭐⭐⭐ 在已有 QFS 框架上的应用创新,方法层面的新颖性中等,但应用场景选择精准
- 实验充分度: ⭐⭐⭐⭐ 自动评估与人工偏好评估相结合,多维度的评估设计值得借鉴
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,动机充分,应用价值明确
- 价值: ⭐⭐⭐⭐ 对搜索引擎体验优化有直接的工业部署价值,影响面广泛
相关论文¶
- [ACL 2025] Tell, Don't Show: Leveraging Language Models' Abstractive Retellings to Model Literary Themes
- [ACL 2025] ATGen: A Framework for Active Text Generation
- [ACL 2025] Personalized Text Generation with Contrastive Activation Steering
- [ACL 2025] Writing Like the Best: Exemplar-Based Expository Text Generation
- [ACL 2025] Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems