On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation¶
会议: ACL 2025
arXiv: 2406.12221
代码: 有 (GitHub)
领域: NLP / 大语言模型对齐
关键词: 幻觉缓解, 强化学习, 自对齐, 细粒度反馈, 在策略学习
一句话总结¶
提出 RLFH(Reinforcement Learning for Hallucination),一种在策略(on-policy)自对齐方法,让 LLM 自己作为评判者,将回复分解为原子事实并进行真实性和信息量评估,生成 token 级别的密集奖励信号,通过在线 PPO 优化来有效缓解幻觉问题。
研究背景与动机¶
大语言模型的幻觉问题(hallucination)是当前最关键的挑战之一。所谓幻觉,是模型生成偏离其知识边界的内容——可能是错误的事实信息、对超出知识范围的问题的鲁莽回答、或对本可回答问题的回避。
现有幻觉缓解方法面临三大困境:
离策略采样(Off-policy sampling):现有学习方法使用其他模型或旧版本模型生成的数据进行训练,导致分布偏移——训练数据不反映当前模型的行为,优化效果打折扣
粗粒度反馈:现有方法通常对整个回复给一个评分(好/坏),但一个回复中可能同时包含正确和错误的事实,粗粒度反馈无法精确定位问题
知识边界检测不准确:现有方法通过显式 prompting 或内部状态探测来检测模型知识边界,但结果往往不一致
另一类方法(编辑式方法)先生成再用外部知识修正,但这只是修补输出而不改善模型内在的知识利用能力,而且外部知识源的覆盖范围有限。
RLFH 的核心思路是:让模型自己探索自己的知识边界,通过细粒度的在策略反馈来自我矫正生成行为。
方法详解¶
整体框架¶
RLFH 包含三个步骤的循环:
- 生成回复:当前策略模型 \(\pi\) 对输入 prompt 生成回复
- 自评估:策略模型自身作为评判者,对回复进行细粒度评估
- 在线强化学习:将评估结果转化为 token 级密集奖励,用 PPO 更新策略
关键设计¶
1. 层级化原子事实提取¶
功能:将模型回复分解为可验证的最小事实单元 核心思路:两级分解——先将回复拆分为句子 \(\{s_i\}_{i=1}^M\),再从每个句子中提取原子事实 \(\{e_{ij}\}_{j=1}^{N_i}\) 设计动机: - 句子级拆分后再提取语句,能获得更细的粒度 - 句子-语句的层级结构便于后续将评估结果映射回原始 token 位置
2. 事实验证(Truthfulness)¶
策略模型自身从参考文档中检索相关上下文,对每个原子事实进行验证。分类为五个级别: - Correct(正确,有证据支持) - Hedged Correct(正确但有不确定性表达) - Vague(真实性无法确定) - Hedged Wrong(错误但有不确定性表达) - Wrong(错误,与证据矛盾)
引入 "Vague" 类别来处理因参考文档不足而无法验证的语句。
3. 信息量评估(Informativeness)¶
对每个语句的信息量进行 1-5 分评估。与事实验证不同的是,信息量评估需要考虑原始问题 \(x\) 和完整回复 \(y\) 的上下文——因为信息量需要全局判断。
这一设计防止模型走捷径:如果只有真实性奖励,模型可能学会拒绝大部分问题或只给极简回答来规避错误。信息量奖励迫使模型在准确性和信息量之间寻找平衡。
损失函数 / 训练策略¶
Token 级密集奖励¶
真实性奖励:
- \(f\) 把真实性标签映射为标量(正确→正,错误→负)
- \(|g(k_{\text{info}})|\) 加权——更重要的语句获得更大的奖励/惩罚幅度(幻觉雪球效应:关键错误会引发连锁幻觉)
信息量奖励:
用对数函数使增长快速饱和但惩罚快速加大,防止模型过度追求信息量。
映射到 token 位置:使用最长公共子序列(LCS)算法将语句级评估映射回原始回复的 token 位置,实现 token 级密集奖励。
PPO 优化:使用标准 Proximal Policy Optimization 算法,以 token 级密集奖励进行在线强化学习。
实验关键数据¶
主实验(FactScore 评估)¶
| 模型 | 平均Score | HotpotQA | SQuADv2 | Biography |
|---|---|---|---|---|
| Llama3.1-8B(基线) | 0.639 | 0.653 | 0.777 | 0.487 |
| DOLA | 0.546 | 0.524 | 0.713 | 0.399 |
| ITI | 0.646 | 0.649 | 0.776 | 0.512 |
| FACT_DPO | 0.645 | 0.652 | 0.778 | 0.506 |
| FACT_SFT | 0.653 | 0.635 | 0.783 | 0.541 |
| RLFH (Llama3.1-8B) | 0.686 | 0.714 | 0.786 | 0.558 |
| Qwen2.5-7B(基线) | 0.638 | 0.634 | 0.813 | 0.467 |
| RLFH (Qwen2.5-7B) | 0.668 | 0.651 | 0.830 | 0.523 |
消融实验:奖励粒度影响¶
| 模型(Qwen2.5-7B) | 平均Score | HotpotQA | SQuADv2 | Biography |
|---|---|---|---|---|
| 基线 | 0.638 | 0.634 | 0.813 | 0.467 |
| Response级 | 0.651 | 0.639 | 0.819 | 0.493 |
| Sentence级 | 0.655 | 0.637 | 0.821 | 0.506 |
| Statement级 | 0.668 | 0.651 | 0.830 | 0.523 |
消融实验:Judge 模型影响¶
| Judge 模型 → Qwen2.5-7B | 平均Score |
|---|---|
| DeepSeekV2-Lite | 0.643 |
| Llama3.1-8B | 0.666 |
| Qwen2.5-7B(固定) | 0.668 |
| On-Policy(自身) | 0.668 |
关键发现¶
- RLFH 在所有数据集上取得最高 FactScore:在 Llama3.1-8B 上平均 Score 从 0.639 提升到 0.686(+7.4%),在 Qwen2.5-7B 上从 0.638 提升到 0.668(+4.7%)
- 跨数据集泛化:仅在 HotpotQA 上训练,但在 SQuADv2 和 Biography 两个分布外数据集上也获得显著提升
- 粒度越细越好:Statement 级奖励一致优于 Sentence 级和 Response 级,验证了细粒度反馈的价值
- On-policy 自评优势:让模型自己做评判者的效果不低于使用同等规模的外部模型,甚至在 Llama3.1-8B 上 on-policy 设定表现最优
- 准确性-信息量权衡:训练后模型回复率略有下降(更保守),但提供的信息更准确——高准确率回复比例大幅增加
- 错误和不可验证内容显著减少:分布分析显示 RLFH 有效压制了错误语句和模糊语句
亮点与洞察¶
- "Policy as Judge" 范式:让被优化的模型自身作为评判者,既消除了对外部奖励模型的依赖,又保证了评估与当前策略分布的一致性——这是一个优雅的设计
- 层级化事实分解 + LCS 映射:将语言形式的语句级评估精确映射回 token 位置,实现了从自然语言反馈到数值奖励的无缝转换
- 幻觉雪球效应的考量:在奖励设计中通过信息量加权真实性奖励,使关键语句的错误受到更大惩罚——这比简单的均匀奖励更贴近实际
- 信息量防止退化:防止模型学会"不说话就不犯错"的退化策略
局限与展望¶
- 主要针对事实性知识,对更广泛领域的幻觉(如推理幻觉)尚未验证
- 现有评测基准范围有限,可能无法完全捕捉幻觉的复杂性
- 自动事实验证本身可能存在错误,这些错误会影响训练信号质量
- 模型自评可能存在"自我强化偏差"——模型可能同时生成错误并验证通过
- 目前仅在 7-8B 模型上验证,更大规模模型上的效果有待观察
相关工作与启发¶
- FactScore (Min et al., 2023) 提供了语句级事实性评估的 pipeline
- RLHF (Ouyang et al., 2022) 是 LLM 对齐的基础框架
- DOLA (Chuang et al., 2023) 提供了通过层间对比来提升事实性的无训练方法
- ITI (Li et al., 2023) 通过推理时干预提升模型真实性
- 本文将细粒度评估和在线强化学习结合,提出了更系统的幻觉缓解方案
评分¶
- 新颖性: ⭐⭐⭐⭐ — "自我评判 + 细粒度密集奖励 + 在线 RL" 的组合是新的,但各组件已有先例
- 实验充分度: ⭐⭐⭐⭐⭐ — 3 个数据集、多个基线模型、粒度消融、Judge 模型消融、分布分析,非常全面
- 写作质量: ⭐⭐⭐⭐ — 方法描述清晰,图表丰富,但公式符号较多
- 价值: ⭐⭐⭐⭐⭐ — 幻觉缓解是当前最热门的研究方向之一,该方法的实用性和改进幅度都很可观
相关论文¶
- [ACL 2025] Fine-grained Hallucination Detection and Mitigation in Long-form Question Answering
- [ACL 2025] Improving Model Factuality with Fine-grained Critique-based Evaluator
- [ACL 2025] Real-time Factuality Assessment from Adversarial Feedback
- [ACL 2025] Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning
- [ACL 2025] Monitoring Decoding: Mitigating Hallucination via Evaluating the Factuality of Partial Response during Generation