跳转至

Do Retrieval Augmented Language Models Know When They Don't Know?

会议: AAAI 2026 arXiv: 2509.01476 代码: GitHub 领域: LLM效率 关键词: RAG, 校准, 过度拒绝, 不确定性估计, 检索增强

一句话总结

系统分析RAG模型的拒绝校准问题,发现RALM在检索文档全部不相关时过度拒绝率超过55%(即使模型内部知识足够回答),提出结合不确定性估计和拒绝感知微调的机制来平衡拒绝与回答质量。

研究背景与动机

  • 领域现状:RAG系统通过检索外部文档来增强LLM,拒绝后训练(refusal post-training)教会模型在不确定时主动拒绝回答。两者被广泛采用但很少被联合研究。
  • 核心痛点:当检索文档全部不相关时,经过拒绝训练的RALM倾向于拒绝所有问题——即使模型的参数知识(内部知识)足以正确回答。这种"过度拒绝"现象被严重忽视。
  • 核心矛盾:改善拒绝率不等于改善校准质量。现有拒绝训练方法(如R-tuning)可能反而加剧过度拒绝。模型的内部知识和外部检索知识之间的校准失衡是根本问题。
  • 切入角度:将RALM的知识来源分为四象限(内部知识有/无 x 外部知识有/无),系统研究不同知识状态下的拒绝行为和不确定性校准。

方法详解

整体框架

围绕三个递进的研究问题展开:(RQ1) RALM在不同知识状态下的校准质量如何?(RQ2) 拒绝能力与校准质量之间的关系是什么?(RQ3) 能否结合不确定性估计来缓解过度拒绝?

关键设计

  1. 四象限知识状态分析(RQ1)
  2. 将每个问题分类为"highlyknown"/"maybeknown"/"weaklyknown"/"unknown"四种知识状态
  3. 分类基于温度采样和贪婪解码的结果一致性
  4. 在不同检索配置下(0正10负、1正9负、5正5负等)分析各知识状态的拒绝行为
  5. 发现:即使是"highlyknown"的问题,在全负面检索下也会被过度拒绝

  6. 拒绝训练方法对比分析(RQ2)

  7. R-tuning:检测模型无法回答的问题,训练其输出"I don't know"——结果反而加剧过度拒绝
  8. In-Context Fine-Tuning(ICFT):在微调数据中同时插入正面和负面上下文,根据知识象限设定训练目标——有效缓解过度拒绝
  9. 关键发现:ICFT改善拒绝行为但不一定改善校准或准确率,原因在于鲁棒性和上下文忠实度的变化

  10. 不确定性基础的拒绝机制(RQ3)

  11. 利用不确定性估计及其变化来推断RALM的知识状态
  12. 根据推断结果决定:使用检索上下文回答 / 不使用检索上下文回答 / 拒绝回答
  13. 三类不确定性估计方法:Verbalization-based(模型自述置信度,4种prompt变体)、Consistency-based(Agreement/Entropy/FSD三种度量)、Similarity Matrix-based(特征值/度数)

  14. 实验设计的严谨性

  15. 使用Milvus进行混合搜索+重排序构建高质量负面检索样本
  16. 严格的答案判定:LLM-as-judge + 精确匹配 + 拒绝词过滤
  17. Qwen评估中文(CRUD、RGB_zh),LLaMA评估英文(NQ、RGB_en)
  18. 生成温度0.5,采样16次

损失函数/训练策略

  • R-tuning:两阶段,先检测知识边界外的问题,再用"应拒绝"标签微调
  • ICFT:为每个训练样本同时插入正面和负面上下文,根据RALM知识象限设定正确答案或拒绝表达为训练目标

实验关键数据

主实验表格(RQ1校准分析,Brier Score越低越好)

不确定性估计方法 RGB_en (0p10n) RGB_en (5p5n) RGB_zh (0p10n)
Verb-1s-1 0.139 0.023 0.441
Entropy 0.305 0.009 0.256
Agree 0.192 0.010 0.261
Eigv (相似矩阵) 0.232 0.271 0.282

消融实验表格(RQ2拒绝训练效果)

方法 过度拒绝率 整体准确率 校准质量
原始RALM >55% 基准 基准
R-tuning 加剧 降低 未改善
ICFT 显著缓解 保持/略升 不一定改善
ICFT + 不确定性拒绝 最优 显著提升 改善

关键发现

  • 检索全不相关时过度拒绝率>55%:模型明明有内部知识可以正确回答,却因检索结果不佳而拒绝
  • R-tuning适得其反:拒绝训练反而让模型在更多情况下选择拒绝,加剧了过度拒绝问题
  • ICFT有效但有限:缓解过度拒绝但不自动改善校准质量,说明拒绝行为与校准是两个独立维度
  • 一致性方法在正面文档存在时校准最好(Brier=0.009),但在全负面文档设定下退化严重
  • 不确定性变化(有/无检索时的差值)是有效的知识状态判据

亮点与洞察

  • "过度拒绝"概念的系统化刻画:首次将RAG的拒绝能力纳入不确定性校准框架,揭示了一个被广泛忽视但影响重大的问题
  • 拒绝不等于校准的重要洞察:改善模型的拒绝行为不等于改善其校准质量,两者需要独立优化
  • 四象限知识状态的实用性:为RAG系统的动态策略选择提供了清晰的分析框架

局限性 / 可改进方向

  • 实验主要基于简单事实问答(单跳),复杂推理任务上的过度拒绝模式可能不同
  • 不确定性估计方法的选择对结果影响较大,缺乏自动选择最优方法的机制
  • 动态检索仍依赖静态阈值,可探索自适应阈值
  • 仅实验了~7B规模模型,更大模型上的过度拒绝行为有待验证

相关工作与启发

  • vs. 动态RAG方法(Self-RAG, FLARE等):这些方法根据不确定性决定何时检索,但假设模型校准良好;本文证明这一假设不成立
  • vs. LLM知识边界研究(Li et al. 2025):知识边界研究主要关注内部知识,本文扩展到内部+外部知识的联合分析

评分

  • 新颖性: ⭐⭐⭐⭐ 过度拒绝问题的系统化刻画和四象限分析框架是新贡献
  • 实验充分度: ⭐⭐⭐⭐ 三个递进RQ、多种UE方法、中英文双语、多种检索配置
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,研究问题递进式展开逻辑性强
  • 价值: ⭐⭐⭐⭐ 对RAG系统可靠性改进和智能拒绝策略设计有直接指导意义