跳转至

Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG

会议: ACL 2025
arXiv: 2505.20871
代码: https://github.com/Divide-Then-Align
领域: LLM Agent / RAG / 对齐
关键词: RAG knowledge boundary, honest alignment, DPO, abstention, RAFT

一句话总结

DTA 提出将 RAG 查询按参数知识边界和检索知识边界划分为四个象限,对"两者都不知道"的查询构造偏好数据用 DPO 训练模型回答"我不知道",解决了 RAFT 模型即使在检索完全噪声时也强行生成答案的问题,在准确率和适当弃权之间实现了有效平衡。

研究背景与动机

  1. 领域现状:RAG 微调(RAFT)通过在含噪声检索的上下文中训练 LLM 提升鲁棒性,是 RAG 领域的重要进展。
  2. 现有痛点
  3. RAFT 条件化模型在任何情况下都生成答案,即使检索完全噪声+模型参数知识也不知道答案
  4. 对高风险领域(医疗/法律/金融)而言,不能"不知道就说不知道"是致命缺陷
  5. 即使在 prompt 中显式要求模型回答"我不知道",RAFT 训练后的模型仍倾向于编造答案
  6. 核心矛盾:RAFT 的鲁棒性训练让模型学会了在噪声中找信息(好的),但也让模型学会了在无信息时也强行生成(坏的)
  7. 本文要解决什么? 让 RAG 模型在查询超出知识边界时能诚实地回答"我不知道"
  8. 切入角度:将查询按两个知识边界的组合分为四个象限,为每个象限构造不同的偏好策略
  9. 核心 idea 一句话:四象限划分(参数知识✓✗ × 检索知识✓✗)+ 象限特定偏好数据 + DPO 对齐 = 准确率不降 + 会说"我不知道"。

方法详解

整体框架

Divide: 对训练数据中的每个查询 q,判断 (1) \(q \in KB_{param}\)?(模型不用检索能答对?)(2) \(q \in KB_r\)?(检索到的文档包含答案?)→ 划分为四象限。Align: 为每个象限构造偏好对 → DPO 训练。

关键设计

  1. 四象限划分
  2. ✓✓:参数知识知道 + 检索到了答案 → 偏好:正确答案 > 错误答案
  3. ✓✗:参数知识知道 + 检索没找到 → 偏好:正确答案 > "不知道" > 错误答案
  4. ✗✓:参数不知道 + 检索到了答案 → 偏好:正确答案 > "不知道" > 错误答案
  5. ✗✗:两者都不知道 → 偏好:"我不知道" > 任何错误答案
  6. 设计动机:不同象限对"应答 vs 弃权"有不同的最优策略

  7. 知识边界判断

  8. 参数知识边界 \(KB_{param}\):对同一查询采样 N 次无检索回答,正确率超过阈值 δ 则 ✓
  9. 检索知识边界 \(KB_r\):检索文档中是否包含正确答案 → 词汇匹配判断
  10. 设计动机:需要可操作的判断方法来自动分象限

  11. 偏好数据构造 + DPO

  12. 每个象限构造不同的 chosen/rejected 对
  13. 总计构造 10,000 个偏好样本
  14. 用 DPO 在 RAFT 模型基础上继续训练
  15. 设计动机:DPO 比 RLHF 更简单高效,偏好数据自动构造无需人工标注

实验关键数据

主实验

方法 NQ Acc TriviaQA Acc WebQ Acc 弃权率(✗✗)
RAFT ~0% (不弃权)
RAFT + prompt "IDK" 微降 微降 微降 <5%
DTA 持平 持平 持平 ~80%

关键发现

  • RAFT 模型几乎不弃权:即使 prompt 明确要求,RAFT 模型在 ✗✗ 象限仍有 >95% 的概率编造答案
  • DTA 能让模型在 ✗✗ 象限弃权约 80%:且在其他象限的准确率基本不损失
  • 10K 偏好样本即可有效:DPO 训练效率高,少量数据即可学会弃权行为
  • 四象限评估框架比单一准确率更全面:9 个指标覆盖了准确与弃权的多维度 trade-off

亮点与洞察

  • "知识边界四象限"的概念化非常清晰:把模糊的"RAG 什么时候该说不知道"形式化为可操作的四象限判断,为 RAG 诚实性研究提供了标准框架
  • 发现 RAFT 的"过度自信"问题有实际意义:这是对 RAFT 这个流行方法的重要补充——鲁棒性和诚实性是两个不同的目标
  • DPO 作为后训练步骤的可插拔设计:可以直接应用到任何已有的 RAFT 模型上,无需重新训练

局限性 / 可改进方向

  • 弃权阈值 δ 需要人工设定:不同场景可能需要不同的弃权倾向
  • 知识边界判断有误差:采样 N 次的正确率作为代理指标不完全准确
  • 仅在 QA 任务上测试:开放式生成任务的弃权行为更复杂
  • 可能过度弃权:80% 的弃权率在某些场景下可能太保守

相关工作与启发

  • vs RAFT (Yoran et al., 2024):RAFT 专注于噪声鲁棒性,DTA 专注于诚实性——两者互补
  • vs Astute RAG:Astute RAG 用知识整合解决冲突,DTA 用弃权解决知识空白——方法论不同
  • vs Self-RAG:Self-RAG 用反思 token 判断是否需要检索,DTA 判断是否应该弃权——更下游

评分

  • 新颖性: ⭐⭐⭐⭐ 四象限概念化和 RAFT 过度自信问题识别都有新意
  • 实验充分度: ⭐⭐⭐⭐ 三数据集+9个指标的全面评估,但仅限 QA
  • 写作质量: ⭐⭐⭐⭐⭐ 形式化定义精确,图表直观,逻辑链清晰
  • 价值: ⭐⭐⭐⭐ 对 RAG 系统的可靠性和安全部署有重要意义