Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG¶

会议: ACL 2025
arXiv: 2505.20871
代码: https://github.com/Divide-Then-Align
领域: LLM Agent / RAG / 对齐
关键词: RAG knowledge boundary, honest alignment, DPO, abstention, RAFT

一句话总结¶

DTA 提出将 RAG 查询按参数知识边界和检索知识边界划分为四个象限，对"两者都不知道"的查询构造偏好数据用 DPO 训练模型回答"我不知道"，解决了 RAFT 模型即使在检索完全噪声时也强行生成答案的问题，在准确率和适当弃权之间实现了有效平衡。

研究背景与动机¶

领域现状：RAG 微调（RAFT）通过在含噪声检索的上下文中训练 LLM 提升鲁棒性，是 RAG 领域的重要进展。
现有痛点：
RAFT 条件化模型在任何情况下都生成答案，即使检索完全噪声+模型参数知识也不知道答案
对高风险领域（医疗/法律/金融）而言，不能"不知道就说不知道"是致命缺陷
即使在 prompt 中显式要求模型回答"我不知道"，RAFT 训练后的模型仍倾向于编造答案
核心矛盾：RAFT 的鲁棒性训练让模型学会了在噪声中找信息（好的），但也让模型学会了在无信息时也强行生成（坏的）
本文要解决什么？ 让 RAG 模型在查询超出知识边界时能诚实地回答"我不知道"
切入角度：将查询按两个知识边界的组合分为四个象限，为每个象限构造不同的偏好策略
核心 idea 一句话：四象限划分（参数知识✓✗ × 检索知识✓✗）+ 象限特定偏好数据 + DPO 对齐 = 准确率不降 + 会说"我不知道"。

方法详解¶

整体框架¶

Divide: 对训练数据中的每个查询 q，判断 (1) \(q \in KB_{param}\)?（模型不用检索能答对？）(2) \(q \in KB_r\)?（检索到的文档包含答案？）→ 划分为四象限。Align: 为每个象限构造偏好对 → DPO 训练。

关键设计¶

四象限划分：
✓✓：参数知识知道 + 检索到了答案 → 偏好：正确答案 > 错误答案
✓✗：参数知识知道 + 检索没找到 → 偏好：正确答案 > "不知道" > 错误答案
✗✓：参数不知道 + 检索到了答案 → 偏好：正确答案 > "不知道" > 错误答案
✗✗：两者都不知道 → 偏好："我不知道" > 任何错误答案
设计动机：不同象限对"应答 vs 弃权"有不同的最优策略
知识边界判断：
参数知识边界 \(KB_{param}\)：对同一查询采样 N 次无检索回答，正确率超过阈值 δ 则 ✓
检索知识边界 \(KB_r\)：检索文档中是否包含正确答案 → 词汇匹配判断
设计动机：需要可操作的判断方法来自动分象限
偏好数据构造 + DPO：
每个象限构造不同的 chosen/rejected 对
总计构造 10,000 个偏好样本
用 DPO 在 RAFT 模型基础上继续训练
设计动机：DPO 比 RLHF 更简单高效，偏好数据自动构造无需人工标注

实验关键数据¶

主实验¶

方法	NQ Acc	TriviaQA Acc	WebQ Acc	弃权率(✗✗)
RAFT	高	高	高	~0% (不弃权)
RAFT + prompt "IDK"	微降	微降	微降	<5%
DTA	持平	持平	持平	~80%

关键发现¶

RAFT 模型几乎不弃权：即使 prompt 明确要求，RAFT 模型在 ✗✗ 象限仍有 >95% 的概率编造答案
DTA 能让模型在 ✗✗ 象限弃权约 80%：且在其他象限的准确率基本不损失
10K 偏好样本即可有效：DPO 训练效率高，少量数据即可学会弃权行为
四象限评估框架比单一准确率更全面：9 个指标覆盖了准确与弃权的多维度 trade-off

亮点与洞察¶

"知识边界四象限"的概念化非常清晰：把模糊的"RAG 什么时候该说不知道"形式化为可操作的四象限判断，为 RAG 诚实性研究提供了标准框架
发现 RAFT 的"过度自信"问题有实际意义：这是对 RAFT 这个流行方法的重要补充——鲁棒性和诚实性是两个不同的目标
DPO 作为后训练步骤的可插拔设计：可以直接应用到任何已有的 RAFT 模型上，无需重新训练

局限性 / 可改进方向¶

弃权阈值 δ 需要人工设定：不同场景可能需要不同的弃权倾向
知识边界判断有误差：采样 N 次的正确率作为代理指标不完全准确
仅在 QA 任务上测试：开放式生成任务的弃权行为更复杂
可能过度弃权：80% 的弃权率在某些场景下可能太保守

评分¶

新颖性: ⭐⭐⭐⭐ 四象限概念化和 RAFT 过度自信问题识别都有新意
实验充分度: ⭐⭐⭐⭐ 三数据集+9个指标的全面评估，但仅限 QA
写作质量: ⭐⭐⭐⭐⭐ 形式化定义精确，图表直观，逻辑链清晰
价值: ⭐⭐⭐⭐ 对 RAG 系统的可靠性和安全部署有重要意义