FaithLens: Detecting and Explaining Faithfulness Hallucination¶

会议: ACL 2026
arXiv: 2512.20182
代码: https://github.com/S1s-Z/FaithLens
领域: 强化学习 / 幻觉检测
关键词: 忠实性幻觉, 可解释检测, 规则强化学习, 数据过滤, 跨任务泛化

一句话总结¶

本文提出 FaithLens，一个 8B 参数的忠实性幻觉检测模型，通过高质量数据合成+三维过滤（标签正确性、解释质量、数据多样性）进行冷启动 SFT，再用基于规则的强化学习（预测正确性奖励+解释质量奖励）进一步优化，在 12 个任务上超越 GPT-5.2 和 o3，同时提供高质量的解释性输出。

研究背景与动机¶

领域现状：LLM 广泛用于基于上下文的文本生成（如 RAG、摘要），但容易产生与给定上下文不一致或无关的"忠实性幻觉"。检测此类幻觉对于负责任的 LLM 服务至关重要。

现有痛点：(1) 缺乏可解释性——现有方法将幻觉检测视为黑盒二分类，仅输出预测标签而不解释原因，用户无法定位错误和理解原因；(2) 跨任务泛化不一致——不同任务有不同的幻觉模式（摘要中的微妙扭曲 vs RAG 中的矛盾声明），通用模型表现不均衡；(3) 缺乏高质量数据——标注成本高、一致性低，合成数据缺乏质量控制。

核心矛盾：要同时实现高检测准确率和高解释质量是困难的：SFT 训练让模型模仿训练数据，容易记住简单样本但在复杂场景泛化差；而自由形式解释的质量难以用规则直接验证。

本文目标：构建成本效益高的幻觉检测模型，同时输出检测结果和解释性说明，在 12 个多样化任务上实现 SOTA。

切入角度：两阶段训练——先用精心过滤的合成数据 SFT 冷启动，再用巧妙设计的规则奖励（预测正确性+解释质量）进行 GRPO 强化学习。

核心 idea：解释质量奖励的关键洞察——如果一个解释能帮助"新手模型"（未微调的 Llama-3.1-8B）正确预测标签，说明该解释足够清晰和信息丰富。

方法详解¶

整体框架¶

FaithLens 训练分两阶段：(1) 冷启动 SFT——从开源数据集出发，用高级推理模型（DeepSeek-V3.2-Think）合成带解释的训练数据，经三维过滤后微调模型；(2) 规则强化学习——用 GRPO 算法进一步优化，奖励函数包含预测正确性、解释质量和格式三部分。

关键设计¶

三维数据过滤策略:
- 功能：确保合成训练数据的标签正确性、解释质量和数据多样性
- 核心思路：标签过滤——比较 LLM 预测与真实标签，不一致则丢弃（因为错误标签的 CoT 和解释虽然看似连贯但与错误预测内在一致）。解释质量过滤——测量加入解释后模型对正确标签的困惑度是否降低，仅保留能降低困惑度的样本。多样性过滤——用 K-Medoids 聚类构建探测集，测试候选样本能否帮助探测集中的样本预测正确，保留对多样化样本有正面影响的训练数据
- 设计动机：不加过滤的合成数据包含噪声和过多简单样本。三维过滤确保训练数据既正确又有信息量且覆盖多样化场景
解释质量奖励:
- 功能：在强化学习阶段隐式评估自由形式解释的质量
- 核心思路：将生成的解释 \(e\) 连同文档和声明输入"新手模型"（未微调的 Llama-3.1-8B-Instruct），检查新手模型能否基于此解释正确预测标签。若正确则奖励为 1，否则为 0。最终奖励 \(R_{\text{final}} = R_{\text{pred}} + R_{\text{exp}} + R_{\text{format}}\)
- 设计动机：直接用规则验证自由形式文本质量几乎不可能。"如果新手都能通过你的解释得出正确答案，那你的解释一定足够好"——这是一种巧妙的代理评估
GRPO 强化学习训练:
- 功能：在 SFT 冷启动基础上进一步提升检测准确率和解释质量
- 核心思路：对每个文档-声明对生成 \(G\) 个候选（解释+预测），用组合奖励评估每个候选，通过 GRPO 的组内相对优势估计进行策略更新。KL 散度正则化防止偏离参考策略过远
- 设计动机：SFT 容易记忆简单样本，RL 通过探索和奖励信号驱动模型在复杂场景中也能给出高质量输出

损失函数 / 训练策略¶

SFT 阶段使用标准的交叉熵损失在过滤后的合成数据上微调。RL 阶段使用 GRPO（Group Relative Policy Optimization），组合奖励 = 预测正确性(0/1) + 解释质量(0/1) + 格式正确性(0/1)。基础模型为 Llama-3.1-8B-Instruct。

实验关键数据¶

主实验¶

12 个任务的总体性能（Balanced Accuracy %）

模型	标准差 ↓	平均值 ↑
GPT-4o	7.0	76.1
o3	6.0	82.1
GPT-5.2	-	85.3
Claude-3.7-Sonnet	5.3	82.6
DeepSeek-V3.2-Think	5.1	84.4
MiniCheck-7B	9.3	76.7
FaithLens-8B (Ours)	4.1	85.8

消融实验¶

配置	平均准确率	说明
Full FaithLens	85.8	完整模型
w/o RL（仅 SFT）	82.3	RL 贡献 +3.5
w/o 解释质量奖励	84.1	解释奖励贡献 +1.7
w/o 数据过滤	79.8	过滤贡献 +6.0
w/o 多样性过滤	81.5	多样性过滤贡献 +4.3

关键发现¶

8B FaithLens 超越了 GPT-5.2（85.8 vs 85.3）和 o3（82.1），在成本上有数量级优势
标准差最低（4.1），说明跨任务泛化最稳定——解决了现有方法"部分任务强、部分任务弱"的问题
数据过滤的贡献（+6.0）大于 RL（+3.5），说明高质量训练数据是基础
多样性过滤对跨任务泛化至关重要，去除后准确率下降 4.3 个百分点
解释质量奖励不仅提升了解释质量，还间接提升了检测准确率（+1.7），说明"解释→预测"的过程有内在正则化效果

亮点与洞察¶

"新手模型代理评估"是评估自由形式解释质量的优雅方案——将不可验证的文本质量问题转化为可验证的分类正确性问题
三维数据过滤的"标签→解释→多样性"递进式设计保证了训练数据的全面质量
仅 8B 参数超越闭源巨型模型，展示了"精心设计的训练策略 > 蛮力扩大参数"

局限与展望¶

解释质量奖励依赖"新手模型"的能力，如果新手模型本身有偏差，奖励信号可能失真
合成数据来源于现有开源数据集，可能继承其偏差
仅评测了英语任务，多语言泛化能力未验证
未来可探索更细粒度的解释评估（如句级别的证据锚定）

评分¶

新颖性: ⭐⭐⭐⭐ 解释质量奖励和三维过滤策略有创新，但整体框架（SFT+RL）是常见范式
实验充分度: ⭐⭐⭐⭐⭐ 12 个任务、多基线（含 GPT-5.2/o3）、详尽消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式完整
价值: ⭐⭐⭐⭐⭐ 8B 模型超越 GPT-5.2 且提供解释，实用性极强