Reliable Decision Making via Calibration Oriented Retrieval Augmented Generation¶

会议: NeurIPS 2025
arXiv: 2411.08891
代码: 待确认
领域: llm_nlp
关键词: RAG, calibration, decision-making, retrieval augmented generation, confidence estimation

一句话总结¶

提出 CalibRAG 框架，通过训练一个温度条件化的 forecasting function 来确保 RAG 辅助决策过程中的置信度校准，不仅改善校准质量还提升了准确率。

研究背景与动机¶

LLM 越来越多地用于辅助人类决策，但 LLM 经常以高置信度提供错误信息（hallucination），导致用户做出次优决策
研究表明用户对 LLM 输出存在过度依赖，且依赖程度与模型置信度成正比
RAG 通过引入外部文档来缓解幻觉，但 RAG 的检索器可能返回不相关文档，且 LLM 对检索文档过度自信
现有 RAG 方法只关注检索相关性，未考虑用户决策是否校准良好
传统 temperature scaling 不适用于长文本生成的校准问题
先前的 decision calibration 方法需要微调 3 个 LLM + PPO 训练，代价高且不稳定

方法详解¶

整体框架¶

CalibRAG 的核心思想：训练一个 forecasting function \(f(t, q, d)\) 来预测"给定温度 \(t\)、查询 \(q\) 和检索文档 \(d\)，用户决策正确的概率"。推理时用该函数对检索文档进行重排序，选择最有可能导致正确决策的文档。

四阶段推理流程： 1. Stage 1 - 初始检索：给定 query \(q^*\)，检索 Top-K 候选文档 2. Stage 2 - 评分与选择：用 \(f(t, q^*, d_i^*)\) 对每个文档评分并重排序 3. Stage 3 - 查询重构（可选）：如果最高置信度低于阈值 \(\epsilon = 0.5\)，重构 query 再检索 4. Stage 4 - 最终决策：生成 guidance 和置信度，用户据此做出决策

关键设计¶

Forecasting Function 建模：

以冻结的 LLM \(\mathcal{M}\) 作为特征提取器 \(f_{\text{feat}}\)，用 Fourier 位置编码处理温度参数：

\[\text{PE}(t) = [\sin(\omega_1 t), \cos(\omega_1 t), \ldots, \sin(\omega_N t), \cos(\omega_N t)]\]

其中 \(\omega_n = 2^n \cdot \frac{2\pi}{t_{\max} - t_{\min}}\)。最终模型：

\[f(t, q, d) = \sigma\left(W_{\text{head}}^\top \left(f_{\text{feat}}(\text{concat}[q, d]; W_{\text{LoRA}}) + W_p \cdot \text{PE}(t)\right) + b_{\text{head}}\right)\]

仅训练 LoRA 适配器和轻量头部，保持 LLM 冻结。

合成监督数据生成：

从 TriviaQA、SQuAD2.0、WikiQA 提取 \((x, y)\) 对
为每个 query 检索 Top-20 文档（而非仅 Top-1），原因：(1) 低排名文档也可能帮助正确决策；(2) 避免训练数据偏向负样本
使用代理用户模型 \(U\) 在不同温度 \(t\) 下采样 \(R=10\) 次响应
软标签 \(b \in [0,1]\) = 正确响应的比例

损失函数 / 训练策略¶

使用对数似然损失（strictly proper scoring rule）：

\[\mathcal{L} = -\frac{1}{|\mathcal{S}|} \sum_{(t,q,d,b) \in \mathcal{S}} \left[b \log f(t,q,d) + (1-b)\log(1-f(t,q,d))\right]\]

该损失是 strictly proper scoring rule（对数分数），保证唯一最大化器就是真实概率 \(p\)，确保校准收敛。

也探索了多类别变体 CalibRAG-multi，将正确性分布离散化到直方图 bins (0-10)。

实验关键数据¶

主实验：通用领域（NQ, WebQA）¶

使用 Llama-3.1-8B 作为 RAG 和决策模型，BM25 和 Contriever 两种检索器。

方法	指标	NQ (BM25)	WebQA (BM25)
CT-probe	ECE↓	~0.35	~0.38
Number-LoRA	ECE↓	~0.30	~0.33
CalibRAG	ECE↓	~0.15	~0.18
CalibRAG-multi	ECE↓	~0.14	~0.17

CalibRAG 在所有指标（1-AUROC、1-ACC、ECE、BS）上全面优于基线。

医学领域（MedCPT 检索器）¶

指标	BioASQ-Y/N	MMLU-Med	PubMedQA
CalibRAG ECE↓	最优	最优	最优
CalibRAG ACC↑	最优	最优	最优

CalibRAG 使用通用域数据训练，但在医学领域（unseen 检索器 + OOD 数据集）仍然表现最优。

与重排序 / Robust RAG 对比¶

数据集	方法	AUROC↑	ACC↑	ECE↓	BS↓
HotpotQA	Cross-encoder	60.74	34.98	0.477	0.477
HotpotQA	LLM-rerank	60.57	38.52	0.248	0.297
HotpotQA	CalibRAG	72.47	42.37	0.106	0.206
NQ	SelfRAG	48.4	36.2	0.522	0.545
NQ	CalibRAG	63.5	37.4	0.258	0.287

消融实验¶

温度条件化：去除温度条件后 ECE 显著增加，尤其在高温采样时，验证了温度建模的必要性
检索文档数量：K=20 时性能最优，增加到 40 后收益递减
查询重构：Stage 3 在所有设置中一致提升性能，但增加计算开销

关键发现¶

Top-1 检索文档往往不是最优的——低排名文档有时能带来更好的决策
添加检索文档后虽然提升准确率，但也增加了 ECE（过度自信），需要额外校准
CalibRAG 虽然主要设计用于校准，但因为选择了更有可能导致正确决策的文档，准确率也得以提升

亮点与洞察¶

问题定义新颖：将 RAG 的目标从"检索相关文档"扩展到"确保校准良好的决策"，视角独特
温度条件化设计巧妙：通过 Fourier 编码建模用户行为差异，使得同一个模型可以适应不同风险偏好的用户
跨域泛化能力强：在通用域训练的模型可以直接应用于未见过的医学检索器和数据集
轻量级方案：仅需训练 LoRA 适配器和分类头，避免了 PPO 等不稳定训练
严格理论保证：使用 strictly proper scoring rule 作为损失函数，保证校准收敛性

局限性 / 可改进方向¶

合成数据生成和 forecasting function 训练有额外开销
依赖 GPT-4o-mini 作为评估模型 \(\mathcal{G}\)，可能引入评估偏差
代理用户模型 \(U\) 可能无法完全模拟真实人类决策行为
温度参数 \(t\) 的解释与实际用户行为之间还有差距
未探索 forecasting function 在更多 LLM backbone 上的效果
查询重构阶段的触发机制可以更精细化

评分¶

新颖性: ⭐⭐⭐⭐ 将校准概念引入 RAG 决策场景，视角新颖但技术路线相对直接
实验充分度: ⭐⭐⭐⭐ 覆盖多数据集、多检索器、多领域，消融实验完整
写作质量: ⭐⭐⭐⭐ 问题动机清晰，数学形式化规范，但部分符号较密
价值: ⭐⭐⭐⭐ 对 RAG 系统的可靠性提升有实际价值，适用于高风险决策场景