Copy-Paste to Mitigate Large Language Model Hallucinations¶
会议: ICLR 2026
arXiv: 2510.00508
代码: https://github.com/longyongchao/CopyPasteLLM (有)
领域: LLM NLP / 文本生成 / RAG
关键词: 幻觉缓解, RAG, 复制粘贴, DPO, 忠实性
一句话总结¶
提出 Copy-Paste 生成范式,通过训练 LLM 优先直接复制检索上下文中的片段来生成回答,而非自由改写,配合高复制偏好的 DPO 训练,在反事实 RAG 基准上将忠实度从 80.2% 提升到 92.8%。
研究背景与动机¶
- 领域现状:RAG(检索增强生成)通过为 LLM 提供外部上下文来减少幻觉,但 LLM 在生成回答时经常"改写"而非直接引用上下文,导致信息扭曲和幻觉。
- 现有痛点:LLM 的改写过程引入两类幻觉——"Twist"(扭曲上下文中的事实)和"Causal"(因果链上游错误传播到下游)。引用标注方法只标记来源但不改变生成方式。
- 核心矛盾:高度流畅的改写和高度忠实的复制之间存在权衡——改写虽然读起来流畅,但每一次改写都是幻觉的风险点。
- 本文要解决什么? 能否让 LLM 在保持可读性的同时,尽可能直接复制上下文片段?
- 切入角度:从注意力锚定角度分析——如果上一个生成 token 是从上下文复制的,那么下一个 token 的查询向量与上下文键向量强相关,自然倾向于继续复制。
- 核心idea一句话:训练 LLM 建立"高复制偏好"——通过 DPO 让模型偏好直接嵌入上下文片段的回答风格。
方法详解¶
整体框架¶
两阶段:(1) Copy-Paste-Prompting 生成高复制率的候选回答(CP-Order/CP-Link/CP-Refine 三种策略),(2) 多维度筛选 + Elo 排序 + DPO 训练。
关键设计¶
- 三种复制策略:
- CP-Order:严格抽取——重排上下文中的相关句子
- CP-Link:允许不超过 15 词的过渡短语连接复制片段
-
CP-Refine:迭代 writer-reviewer 循环,最多 5 轮精化(保持高复制率的同时提升可读性)
-
量化指标:
- Copy Coverage kappa = 回答中来自上下文的 token 比例
-
Copy Density delta = 强调长连续片段(片段长度平方加权)
-
DPO 训练:
- 仅需 365 个高质量偏好对
- 多维度筛选:AlignScore/MiniCheck(忠实性)、kappa/delta(复制强度)、查询相关性、流畅度
- Answer Stamping:在回答末尾附加正确答案,避免复制导致的答案遗漏
实验关键数据¶
主实验¶
| 数据集 | 模型 | 方法 | 准确率 |
|---|---|---|---|
| FaithEval (反事实) | Llama-3-8B | Context-DPO | 80.2% |
| FaithEval (反事实) | Llama-3-8B | CopyPasteLLM | 92.8% |
| ConFiQA-MC | Llama-3-8B | Attributed | 37.3% |
| ConFiQA-MC | Llama-3-8B | CopyPasteLLM | 82.5% |
消融实验¶
| 变体 | FaithEval | 说明 |
|---|---|---|
| w/o 复制偏好 | 71.2% | 无高复制训练数据 |
| w/o Answer Stamping | 45.1% | 复制过多导致答案丢失 |
| CopyPasteLLM | 92.8% | 完整方法 |
关键发现¶
- Answer Stamping 至关重要——没有它准确率从 92.8% 暴跌到 45.1%
- 仅需 365 个偏好对即可有效训练,数据效率极高
- Copy Density 比 Coverage 更好地预测忠实性,长连续片段比短碎片更可靠
亮点与洞察¶
- 注意力锚定理论:复制操作在注意力机制层面有天然优势——上一 token 复制自上下文时,键值向量自然引导继续复制,形成"复制惯性"。
- 极少数据高效训练:365 个样本的 DPO 就能显著改变生成风格,说明"复制 vs 改写"主要是偏好问题而非能力问题。
- Answer Stamping 的必要性:提示模型在末尾显式给出答案,平衡了复制忠实性和回答完整性。
局限性 / 可改进方向¶
- 高复制率可能降低回答的自然度和可读性
- 仅在英文 RAG 任务上验证,跨语言效果未知
- Copy-Paste 策略对需要推理综合的问题(非直接查找)可能不适用
相关工作与启发¶
- vs Context-DPO: 同为 DPO 方法,但 Context-DPO 不强调复制偏好,本文显式优化复制
- vs Attributed LLM: 仅标注引用来源但不改变生成方式,本文从生成方式本身入手
评分¶
- 新颖性: ⭐⭐⭐⭐ "复制优先于改写"的理念新颖且反直觉
- 实验充分度: ⭐⭐⭐⭐ 多数据集多模型验证,消融清晰
- 写作质量: ⭐⭐⭐⭐ 注意力锚定分析有趣
- 价值: ⭐⭐⭐⭐⭐ 实用价值高,RAG 系统可直接采用