Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG¶
会议: ACL 2025
arXiv: 2505.20871
代码: https://github.com/Divide-Then-Align
领域: LLM Agent / RAG / 对齐
关键词: RAG knowledge boundary, honest alignment, DPO, abstention, RAFT
一句话总结¶
DTA 提出将 RAG 查询按参数知识边界和检索知识边界划分为四个象限,对"两者都不知道"的查询构造偏好数据用 DPO 训练模型回答"我不知道",解决了 RAFT 模型即使在检索完全噪声时也强行生成答案的问题,在准确率和适当弃权之间实现了有效平衡。
研究背景与动机¶
- 领域现状:RAG 微调(RAFT)通过在含噪声检索的上下文中训练 LLM 提升鲁棒性,是 RAG 领域的重要进展。
- 现有痛点:
- RAFT 条件化模型在任何情况下都生成答案,即使检索完全噪声+模型参数知识也不知道答案
- 对高风险领域(医疗/法律/金融)而言,不能"不知道就说不知道"是致命缺陷
- 即使在 prompt 中显式要求模型回答"我不知道",RAFT 训练后的模型仍倾向于编造答案
- 核心矛盾:RAFT 的鲁棒性训练让模型学会了在噪声中找信息(好的),但也让模型学会了在无信息时也强行生成(坏的)
- 本文要解决什么? 让 RAG 模型在查询超出知识边界时能诚实地回答"我不知道"
- 切入角度:将查询按两个知识边界的组合分为四个象限,为每个象限构造不同的偏好策略
- 核心 idea 一句话:四象限划分(参数知识✓✗ × 检索知识✓✗)+ 象限特定偏好数据 + DPO 对齐 = 准确率不降 + 会说"我不知道"。
方法详解¶
整体框架¶
Divide: 对训练数据中的每个查询 q,判断 (1) \(q \in KB_{param}\)?(模型不用检索能答对?)(2) \(q \in KB_r\)?(检索到的文档包含答案?)→ 划分为四象限。Align: 为每个象限构造偏好对 → DPO 训练。
关键设计¶
- 四象限划分:
- ✓✓:参数知识知道 + 检索到了答案 → 偏好:正确答案 > 错误答案
- ✓✗:参数知识知道 + 检索没找到 → 偏好:正确答案 > "不知道" > 错误答案
- ✗✓:参数不知道 + 检索到了答案 → 偏好:正确答案 > "不知道" > 错误答案
- ✗✗:两者都不知道 → 偏好:"我不知道" > 任何错误答案
-
设计动机:不同象限对"应答 vs 弃权"有不同的最优策略
-
知识边界判断:
- 参数知识边界 \(KB_{param}\):对同一查询采样 N 次无检索回答,正确率超过阈值 δ 则 ✓
- 检索知识边界 \(KB_r\):检索文档中是否包含正确答案 → 词汇匹配判断
-
设计动机:需要可操作的判断方法来自动分象限
-
偏好数据构造 + DPO:
- 每个象限构造不同的 chosen/rejected 对
- 总计构造 10,000 个偏好样本
- 用 DPO 在 RAFT 模型基础上继续训练
- 设计动机:DPO 比 RLHF 更简单高效,偏好数据自动构造无需人工标注
实验关键数据¶
主实验¶
| 方法 | NQ Acc | TriviaQA Acc | WebQ Acc | 弃权率(✗✗) |
|---|---|---|---|---|
| RAFT | 高 | 高 | 高 | ~0% (不弃权) |
| RAFT + prompt "IDK" | 微降 | 微降 | 微降 | <5% |
| DTA | 持平 | 持平 | 持平 | ~80% |
关键发现¶
- RAFT 模型几乎不弃权:即使 prompt 明确要求,RAFT 模型在 ✗✗ 象限仍有 >95% 的概率编造答案
- DTA 能让模型在 ✗✗ 象限弃权约 80%:且在其他象限的准确率基本不损失
- 10K 偏好样本即可有效:DPO 训练效率高,少量数据即可学会弃权行为
- 四象限评估框架比单一准确率更全面:9 个指标覆盖了准确与弃权的多维度 trade-off
亮点与洞察¶
- "知识边界四象限"的概念化非常清晰:把模糊的"RAG 什么时候该说不知道"形式化为可操作的四象限判断,为 RAG 诚实性研究提供了标准框架
- 发现 RAFT 的"过度自信"问题有实际意义:这是对 RAFT 这个流行方法的重要补充——鲁棒性和诚实性是两个不同的目标
- DPO 作为后训练步骤的可插拔设计:可以直接应用到任何已有的 RAFT 模型上,无需重新训练
局限性 / 可改进方向¶
- 弃权阈值 δ 需要人工设定:不同场景可能需要不同的弃权倾向
- 知识边界判断有误差:采样 N 次的正确率作为代理指标不完全准确
- 仅在 QA 任务上测试:开放式生成任务的弃权行为更复杂
- 可能过度弃权:80% 的弃权率在某些场景下可能太保守
相关工作与启发¶
- vs RAFT (Yoran et al., 2024):RAFT 专注于噪声鲁棒性,DTA 专注于诚实性——两者互补
- vs Astute RAG:Astute RAG 用知识整合解决冲突,DTA 用弃权解决知识空白——方法论不同
- vs Self-RAG:Self-RAG 用反思 token 判断是否需要检索,DTA 判断是否应该弃权——更下游
评分¶
- 新颖性: ⭐⭐⭐⭐ 四象限概念化和 RAFT 过度自信问题识别都有新意
- 实验充分度: ⭐⭐⭐⭐ 三数据集+9个指标的全面评估,但仅限 QA
- 写作质量: ⭐⭐⭐⭐⭐ 形式化定义精确,图表直观,逻辑链清晰
- 价值: ⭐⭐⭐⭐ 对 RAG 系统的可靠性和安全部署有重要意义