跳转至

LAQuer: Localized Attribution Queries in Content-grounded Generation

会议: ACL 2025
arXiv: 2506.01187
代码: https://github.com/eranhirs/LAQuer
领域: 文本生成
关键词: 归因, 细粒度归因, 生成可解释性, 子句级定位, 内容溯源

一句话总结

提出 Localized Attribution Queries (LAQuer) 任务——将生成文本中用户选定的片段精确定位到源文档的对应片段,实现比句子级归因更精细、比子句级归因更用户导向的溯源,在多文档摘要和长文本问答上显著减少了归因文本长度。

研究背景与动机

  1. 领域现状:归因文本生成(Attributed Text Generation)为 LLM 输出附加引用来源,帮助用户验证事实性。现有方法主要在句子级别做归因——将每个生成句子关联到源文档的整段或整个文档。
  2. 现有痛点:(a) 句子级归因太粗——一个句子通常包含多个事实,用户只关心其中一个但需阅读所有关联源文档;(b) 现有子句级方法(如基于隐藏状态相似度)自动选择归因粒度,但不一定和用户实际想验证的事实匹配;(c) 两种方法都是"固定归因"——预先确定好的,不能响应用户的动态需求。
  3. 核心矛盾:用户想验证的是特定事实片段,但系统提供的归因范围要么太大(句子级)要么不可控(自动子句级)。
  4. 本文要解决什么? 定义用户主动发起的归因查询任务——用户高亮感兴趣的输出片段,系统自动定位到源文档中的精确支撑片段。
  5. 切入角度:将归因从"系统预设"转为"用户驱动"——让用户选择要验证什么,系统只返回精确的相关证据。
  6. 核心idea一句话:用户高亮→去语境化→在源文档中定位支撑片段,实现按需精准归因。

方法详解

整体框架

两阶段流水线:(1) 内容生成阶段——生成基于源文档的输出文本,可选地包含句子级归因元数据;(2) LAQuer 阶段——用户高亮要验证的片段 → Step A: 去语境化(将高亮片段转为独立陈述)→ Step B: 查询导向的归因(在源文档中定位支撑片段)。

关键设计

  1. 去语境化(Decontextualization):
  2. 做什么:将用户高亮的片段(可能包含代词、省略)转为自包含的独立陈述
  3. 核心思路:例如用户高亮 "They deserve to know",其中 "They" 指代上文的 "consumers"。去语境化后变为 "Consumers deserve to know what they are eating"
  4. 设计动机:如果不去语境化,源文档中的 "they" 可能指代不同对象,导致错误归因。独立陈述确保了归因的无歧义性

  5. 查询导向的归因:

  6. 做什么:为去语境化后的陈述在源文档中定位精确支撑片段
  7. 两种方法:
    • LLM 提示法: 直接提示 LLM 输出源文档中的对齐片段
    • 内部表示法: 计算 LLM 各层隐藏状态中源 token 和输出 token 的余弦相似度,用相似度最高的源 token 构造支撑片段
  8. 设计动机:利用已有归因元数据缩小搜索范围——如果句子级归因已将某句子关联到两个源段落,只需在这两个段落中搜索

  9. 用户查询模拟:

  10. 做什么:构造评估用的 LAQuer 输入
  11. 核心思路:用 FActScore 将每个输出句子分解为原子事实,每个事实对应一组高亮片段,模拟用户选择行为
  12. 平均每句话分解出 2.6 个原子事实

损失函数 / 训练策略

  • 无需训练——两种方法都是推理时方法(提示或隐藏状态分析)
  • 使用 GPT-4o 做去语境化分解

实验关键数据

主实验

任务 方法 归因文本长度(↓) 归因准确率 说明
MDS 句子级归因 长(整段) 太多无关信息
MDS LAQuer-Prompt 短(精确片段) 中高 显著减少用户阅读量
MDS LAQuer-Internals 最高 内部表示更准确
LFQA 句子级归因 同上
LFQA LAQuer 有效 两种场景均有效

消融实验

配置 效果 说明
w/o 去语境化 归因准确率下降 代词/省略导致歧义
w/ 句子级元数据 搜索空间缩小+准确率提升 两阶段协同
w/o 句子级元数据 仍可工作但精度略降 需搜索全文档

关键发现

  • LAQuer 将用户需阅读的归因文本长度减少数倍——从整段变为精确片段
  • 内部表示法在已有归因元数据时表现最佳——隐藏状态的 token 级对齐精度高
  • 去语境化是关键步骤——没有它的归因错误率显著增加
  • LAQuer 对不同类型的输出片段(短语/从句/完整句子)都有效
  • 归因准确率与片段的语法复杂度相关——简单短语更容易归因

亮点与洞察

  • 从"系统固定"到"用户驱动"的范式转换是核心贡献——归因不应该是一刀切的,而应按用户需求精准提供。这与交互式 RAG 的趋势一致。
  • 去语境化+归因的两步法优雅地解决了指代消解问题——先把片段变成自包含的陈述,再在源文档中搜索就简单多了。
  • 内部表示法展示了 LLM 中间层的 token 对齐能力——不需要额外训练就能做细粒度对齐,有更广泛的应用潜力。
  • 该框架可以直接集成到任何 RAG 系统中——作为"验证增强"的后处理模块。

局限性 / 可改进方向

  • 去语境化依赖 GPT-4o,可能引入错误
  • 评估用的原子事实分解也依赖 LLM,是近似评估
  • 未在真实用户交互场景中验证——所有查询都是模拟的
  • 对长文档源的搜索效率可能成为瓶颈
  • 只验证了英语场景

相关工作与启发

  • vs 句子级归因(Gao et al. 2023): 句子级太粗,用户需阅读大量无关上下文;LAQuer 提供精确片段
  • vs Phukan et al. (2024) 子句级归因: 自动选择归因粒度但不可控;LAQuer 让用户决定
  • vs FActScore: FActScore 分解事实后检查是否被支持,LAQuer 不仅检查是否支持还定位到精确源片段
  • 该定位能力可应用于事实核查、学术写作验证等场景

评分

  • 新颖性: ⭐⭐⭐⭐ 定义了有意义的新任务和框架,从"系统固定归因"到"用户驱动归因"的范式转换有思想深度
  • 实验充分度: ⭐⭐⭐⭐ 两个任务(MDS/LFQA)+两种方法(提示/内部表示)+消融+多种生成器,但缺少真实用户研究
  • 写作质量: ⭐⭐⭐⭐⭐ 任务定义严谨(三个 desiderata 清晰),图示直观(Fig.1 的对比有说服力),形式化完整
  • 价值: ⭐⭐⭐⭐ 改善 RAG/生成系统的可验证性和用户体验,可直接集成到现有系统中