跳转至

FaithLens: Detecting and Explaining Faithfulness Hallucination

会议: ACL 2026
arXiv: 2512.20182
代码: https://github.com/S1s-Z/FaithLens
领域: 强化学习 / 幻觉检测
关键词: 忠实性幻觉, 可解释检测, 规则强化学习, 数据过滤, 跨任务泛化

一句话总结

本文提出 FaithLens,一个 8B 参数的忠实性幻觉检测模型,通过高质量数据合成+三维过滤(标签正确性、解释质量、数据多样性)进行冷启动 SFT,再用基于规则的强化学习(预测正确性奖励+解释质量奖励)进一步优化,在 12 个任务上超越 GPT-5.2 和 o3,同时提供高质量的解释性输出。

研究背景与动机

领域现状:LLM 广泛用于基于上下文的文本生成(如 RAG、摘要),但容易产生与给定上下文不一致或无关的"忠实性幻觉"。检测此类幻觉对于负责任的 LLM 服务至关重要。

现有痛点:(1) 缺乏可解释性——现有方法将幻觉检测视为黑盒二分类,仅输出预测标签而不解释原因,用户无法定位错误和理解原因;(2) 跨任务泛化不一致——不同任务有不同的幻觉模式(摘要中的微妙扭曲 vs RAG 中的矛盾声明),通用模型表现不均衡;(3) 缺乏高质量数据——标注成本高、一致性低,合成数据缺乏质量控制。

核心矛盾:要同时实现高检测准确率和高解释质量是困难的:SFT 训练让模型模仿训练数据,容易记住简单样本但在复杂场景泛化差;而自由形式解释的质量难以用规则直接验证。

本文目标:构建成本效益高的幻觉检测模型,同时输出检测结果和解释性说明,在 12 个多样化任务上实现 SOTA。

切入角度:两阶段训练——先用精心过滤的合成数据 SFT 冷启动,再用巧妙设计的规则奖励(预测正确性+解释质量)进行 GRPO 强化学习。

核心 idea:解释质量奖励的关键洞察——如果一个解释能帮助"新手模型"(未微调的 Llama-3.1-8B)正确预测标签,说明该解释足够清晰和信息丰富。

方法详解

整体框架

FaithLens 训练分两阶段:(1) 冷启动 SFT——从开源数据集出发,用高级推理模型(DeepSeek-V3.2-Think)合成带解释的训练数据,经三维过滤后微调模型;(2) 规则强化学习——用 GRPO 算法进一步优化,奖励函数包含预测正确性、解释质量和格式三部分。

关键设计

  1. 三维数据过滤策略:

    • 功能:确保合成训练数据的标签正确性、解释质量和数据多样性
    • 核心思路:标签过滤——比较 LLM 预测与真实标签,不一致则丢弃(因为错误标签的 CoT 和解释虽然看似连贯但与错误预测内在一致)。解释质量过滤——测量加入解释后模型对正确标签的困惑度是否降低,仅保留能降低困惑度的样本。多样性过滤——用 K-Medoids 聚类构建探测集,测试候选样本能否帮助探测集中的样本预测正确,保留对多样化样本有正面影响的训练数据
    • 设计动机:不加过滤的合成数据包含噪声和过多简单样本。三维过滤确保训练数据既正确又有信息量且覆盖多样化场景
  2. 解释质量奖励:

    • 功能:在强化学习阶段隐式评估自由形式解释的质量
    • 核心思路:将生成的解释 \(e\) 连同文档和声明输入"新手模型"(未微调的 Llama-3.1-8B-Instruct),检查新手模型能否基于此解释正确预测标签。若正确则奖励为 1,否则为 0。最终奖励 \(R_{\text{final}} = R_{\text{pred}} + R_{\text{exp}} + R_{\text{format}}\)
    • 设计动机:直接用规则验证自由形式文本质量几乎不可能。"如果新手都能通过你的解释得出正确答案,那你的解释一定足够好"——这是一种巧妙的代理评估
  3. GRPO 强化学习训练:

    • 功能:在 SFT 冷启动基础上进一步提升检测准确率和解释质量
    • 核心思路:对每个文档-声明对生成 \(G\) 个候选(解释+预测),用组合奖励评估每个候选,通过 GRPO 的组内相对优势估计进行策略更新。KL 散度正则化防止偏离参考策略过远
    • 设计动机:SFT 容易记忆简单样本,RL 通过探索和奖励信号驱动模型在复杂场景中也能给出高质量输出

损失函数 / 训练策略

SFT 阶段使用标准的交叉熵损失在过滤后的合成数据上微调。RL 阶段使用 GRPO(Group Relative Policy Optimization),组合奖励 = 预测正确性(0/1) + 解释质量(0/1) + 格式正确性(0/1)。基础模型为 Llama-3.1-8B-Instruct。

实验关键数据

主实验

12 个任务的总体性能(Balanced Accuracy %)

模型 标准差 ↓ 平均值 ↑
GPT-4o 7.0 76.1
o3 6.0 82.1
GPT-5.2 - 85.3
Claude-3.7-Sonnet 5.3 82.6
DeepSeek-V3.2-Think 5.1 84.4
MiniCheck-7B 9.3 76.7
FaithLens-8B (Ours) 4.1 85.8

消融实验

配置 平均准确率 说明
Full FaithLens 85.8 完整模型
w/o RL(仅 SFT) 82.3 RL 贡献 +3.5
w/o 解释质量奖励 84.1 解释奖励贡献 +1.7
w/o 数据过滤 79.8 过滤贡献 +6.0
w/o 多样性过滤 81.5 多样性过滤贡献 +4.3

关键发现

  • 8B FaithLens 超越了 GPT-5.2(85.8 vs 85.3)和 o3(82.1),在成本上有数量级优势
  • 标准差最低(4.1),说明跨任务泛化最稳定——解决了现有方法"部分任务强、部分任务弱"的问题
  • 数据过滤的贡献(+6.0)大于 RL(+3.5),说明高质量训练数据是基础
  • 多样性过滤对跨任务泛化至关重要,去除后准确率下降 4.3 个百分点
  • 解释质量奖励不仅提升了解释质量,还间接提升了检测准确率(+1.7),说明"解释→预测"的过程有内在正则化效果

亮点与洞察

  • "新手模型代理评估"是评估自由形式解释质量的优雅方案——将不可验证的文本质量问题转化为可验证的分类正确性问题
  • 三维数据过滤的"标签→解释→多样性"递进式设计保证了训练数据的全面质量
  • 仅 8B 参数超越闭源巨型模型,展示了"精心设计的训练策略 > 蛮力扩大参数"

局限与展望

  • 解释质量奖励依赖"新手模型"的能力,如果新手模型本身有偏差,奖励信号可能失真
  • 合成数据来源于现有开源数据集,可能继承其偏差
  • 仅评测了英语任务,多语言泛化能力未验证
  • 未来可探索更细粒度的解释评估(如句级别的证据锚定)

相关工作与启发

  • vs MiniCheck: MiniCheck 用合成数据训练 7B 分类器达到 GPT-4o 水平,但无解释能力;FaithLens 同时提供解释并超越 GPT-5.2
  • vs SelfCheckGPT: SelfCheckGPT 依赖大型模型推理,效率低;FaithLens 用 8B 模型实现更好性能
  • vs DeepSeek-V3.2-Think: 作为数据合成教师它很强(84.4%),但 FaithLens 通过 RL 超越了教师(85.8%)

评分

  • 新颖性: ⭐⭐⭐⭐ 解释质量奖励和三维过滤策略有创新,但整体框架(SFT+RL)是常见范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 12 个任务、多基线(含 GPT-5.2/o3)、详尽消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,公式完整
  • 价值: ⭐⭐⭐⭐⭐ 8B 模型超越 GPT-5.2 且提供解释,实用性极强

相关论文