LAQuer: Localized Attribution Queries in Content-grounded Generation¶

会议: ACL 2025
arXiv: 2506.01187
代码: https://github.com/eranhirs/LAQuer
领域: 文本生成
关键词: 归因, 细粒度归因, 生成可解释性, 子句级定位, 内容溯源

一句话总结¶

提出 Localized Attribution Queries (LAQuer) 任务——将生成文本中用户选定的片段精确定位到源文档的对应片段，实现比句子级归因更精细、比子句级归因更用户导向的溯源，在多文档摘要和长文本问答上显著减少了归因文本长度。

领域现状：归因文本生成（Attributed Text Generation）为 LLM 输出附加引用来源，帮助用户验证事实性。现有方法主要在句子级别做归因——将每个生成句子关联到源文档的整段或整个文档。
现有痛点：(a) 句子级归因太粗——一个句子通常包含多个事实，用户只关心其中一个但需阅读所有关联源文档；(b) 现有子句级方法（如基于隐藏状态相似度）自动选择归因粒度，但不一定和用户实际想验证的事实匹配；(c) 两种方法都是"固定归因"——预先确定好的，不能响应用户的动态需求。
核心矛盾：用户想验证的是特定事实片段，但系统提供的归因范围要么太大（句子级）要么不可控（自动子句级）。
本文要解决什么？ 定义用户主动发起的归因查询任务——用户高亮感兴趣的输出片段，系统自动定位到源文档中的精确支撑片段。
切入角度：将归因从"系统预设"转为"用户驱动"——让用户选择要验证什么，系统只返回精确的相关证据。
核心idea一句话：用户高亮→去语境化→在源文档中定位支撑片段，实现按需精准归因。

两阶段流水线：(1) 内容生成阶段——生成基于源文档的输出文本，可选地包含句子级归因元数据；(2) LAQuer 阶段——用户高亮要验证的片段 → Step A: 去语境化（将高亮片段转为独立陈述）→ Step B: 查询导向的归因（在源文档中定位支撑片段）。

去语境化（Decontextualization）:
做什么：将用户高亮的片段（可能包含代词、省略）转为自包含的独立陈述
核心思路：例如用户高亮 "They deserve to know"，其中 "They" 指代上文的 "consumers"。去语境化后变为 "Consumers deserve to know what they are eating"
设计动机：如果不去语境化，源文档中的 "they" 可能指代不同对象，导致错误归因。独立陈述确保了归因的无歧义性
查询导向的归因:
做什么：为去语境化后的陈述在源文档中定位精确支撑片段
两种方法：
- LLM 提示法: 直接提示 LLM 输出源文档中的对齐片段
- 内部表示法: 计算 LLM 各层隐藏状态中源 token 和输出 token 的余弦相似度，用相似度最高的源 token 构造支撑片段
设计动机：利用已有归因元数据缩小搜索范围——如果句子级归因已将某句子关联到两个源段落，只需在这两个段落中搜索
用户查询模拟:
做什么：构造评估用的 LAQuer 输入
核心思路：用 FActScore 将每个输出句子分解为原子事实，每个事实对应一组高亮片段，模拟用户选择行为
平均每句话分解出 2.6 个原子事实

任务	方法	归因文本长度(↓)	归因准确率	说明
MDS	句子级归因	长（整段）	高	太多无关信息
MDS	LAQuer-Prompt	短（精确片段）	中高	显著减少用户阅读量
MDS	LAQuer-Internals	短	最高	内部表示更准确
LFQA	句子级归因	长	高	同上
LFQA	LAQuer	短	有效	两种场景均有效