Evaluation of Attribution Bias in Generator-Aware Retrieval-Augmented Large Language Models¶

会议: ACL 2025
arXiv: 2410.12380
代码: https://github.com/aminvenv/attrieval
领域: LLM/NLP
关键词: attribution bias, RAG, counterfactual evaluation, authorship, citation generation

一句话总结¶

定义并研究 RAG 中 LLM 对作者身份信息的归因敏感性和偏差，通过反事实评估发现告知 LLM 文档作者身份可显著改变归因质量 3-18%，且 LLM 存在对人类作者身份的归因偏差。

研究背景与动机¶

领域现状：RAG 通过让 LLM 引用来源文档来增强答案可验证性，是减少幻觉的重要方向。大量工作聚焦改善归因质量。
现有痛点：改善归因的同时可能引入偏差——LLM 可能对不同来源的文档有不同程度的信任。先前研究发现 LLM 倾向于选择自身生成的内容，但这一结论可能有替代解释。
核心矛盾：当 LLM 知道文档是人写的还是 AI 生成的，它的归因行为会如何改变？这种改变是否构成系统性偏差？
本文要解决什么？ 定义和量化 RAG 中 LLM 的归因敏感性（sensitivity）和归因偏差（bias）。
切入角度：反事实评估——通过交换文档的作者标签（真实 vs 反事实），观察归因质量的变化。
核心idea一句话：LLM 在 RAG 中对人类作者标签有系统性偏差——标记为 [Human] 的文档更容易被引用，即使内容完全相同。

方法详解¶

整体框架¶

设计三种 RAG 模式（Vanilla/Authorship-Informed/Counterfactual-Authorship）-> 用同一组检索文档在三种模式下生成答案和归因 -> 通过比较计算归因敏感性（CAS）和归因偏差（CAB）。

关键设计¶

三种 RAG 模式
Vanilla RAG：标准 RAG，不提供作者信息（基线）
Authorship-Informed RAG：用 [Human] / [LLM] 标记文档的真实作者
Counterfactual-Authorship RAG：交换标签——人写的文档标为 [LLM]，LLM 写的标为 [Human]
设计动机：通过真实和反事实标签的对比，分离作者信息对归因的纯影响
归因敏感性指标 CAS (Counterfactually-estimated Attribution Sensitivity)
\(CAS(Q) = \frac{1}{|Q|} \sum_{q \in Q} |M_{Informed}^q - M_{Vanilla}^q|\)
测量知道作者信息后归因质量的变化幅度
设计动机：量化作者信息对 LLM 行为的影响程度
归因偏差指标 CAB (Counterfactually-estimated Attribution Bias)
\(CAB(Q) = \frac{\omega}{|Q|} \sum_{q \in Q} (M_{Informed}^q - M_{CF-informed}^q)\)
正值表示偏向人类作者，负值表示偏向 LLM 作者
设计动机：通过反事实翻转，消除文档内容差异的影响，纯粹测量标签偏差
归因置信度 AC (Attribution Confidence)
分析 LLM 生成引用 token 时的概率是否因作者标签不同而不同
设计动机：从模型内部信心角度补充分析
合成文档集构建
用 Llama3 低温度重写人类文档，保持相关/不相关状态不变
两位专家标注验证合成文档质量
设计动机：创建内容对等但作者不同的文档对

实验设置¶

3 个 LLM：Mistral-7B, Llama3-8B, GPT-4
2 个数据集：Natural Questions (NQ), MS MARCO
4 种文档组合：相关文档和不相关文档分别为人写/LLM 写

实验关键数据¶

主实验 — 归因质量对比（NQ 数据集，Precision / Recall）¶

模型	相关文档	不相关文档	Vanilla Prec	Informed Prec	CF-Informed Prec
Mistral	LLM	Human	47.6	42.1	52.7†
Mistral	Human	LLM	51.0	53.4†	44.0
Llama3	LLM	Human	49.2	45.4	57.2†
Llama3	Human	LLM	53.5	59.9†	44.8
GPT-4	LLM	Human	63.3	59.7	65.9†
GPT-4	Human	LLM	64.1	66.1	60.3

归因敏感性 CAS（越高越敏感）¶

模型	NQ (LLM-rel/Human-nonrel)	NQ (Human-rel/LLM-nonrel)
Mistral	16.2†	20.1
Llama3	13.2†	17.7†
GPT-4	9.7†	8.7

归因偏差 CAB（正值=偏向人类）¶

模型	NQ CAB	MS MARCO CAB	方向
Mistral	+5.3	+3.1	偏向人类
Llama3	+7.5	+4.2	偏向人类
GPT-4	+3.1	+2.8	偏向人类

关键发现¶

所有三个 LLM 对作者信息都敏感：告知作者身份可改变归因质量 3-18%（CAS 指标）
一致偏向人类作者：当告知相关文档为人写时，归因精度提高；反事实翻转后精度下降——说明偏差来自标签而非内容
Llama3 偏差最大（CAB 最高），GPT-4 偏差最小但仍显著
答案正确性基本不变：作者信息主要影响归因行为，不影响答案质量
即使不使用 LLM 生成文档，仅添加 [Human]/[LLM] 标签就能产生偏差——说明偏差是对标签的反应而非对内容质量差异的反应

亮点与洞察¶

反事实评估框架非常精巧——通过交换标签消除内容混淆因素，实现了对"标签偏差"的纯粹测量。这种方法论可迁移到其他偏差研究。
人类作者偏差为先前发现提供替代假设：先前工作认为 LLM 偏好自己生成的内容，但本文发现可能是偏好标记为"人类"的内容——两者方向相反，暗示偏差机制更复杂。
文档元数据影响 LLM 信任的发现有深远含义——在实际 RAG 系统中，文档的元信息（来源、作者、发布时间等）都可能影响 LLM 的行为。

局限性 / 可改进方向¶

仅测试 [Human] vs [LLM] 两种作者类型，未探索具体作者名字、机构等更细粒度的影响
合成文档虽质量高但不等同于真实 LLM 生成内容
仅 500 查询样本量
改进方向：更多作者类型（如"专家""学生"）、真实场景中的归因偏差研究、偏差缓解方法

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次定义和量化 RAG 中的归因偏差，反事实评估设计精巧
实验充分度: ⭐⭐⭐⭐ 3 模型 × 2 数据集 × 4 种文档组合 × 3 种 RAG 模式
写作质量: ⭐⭐⭐⭐⭐ 指标定义严谨，实验设计逻辑清晰
价值: ⭐⭐⭐⭐⭐ 对 RAG 系统的可信度和公平性有重要启示