Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation¶

会议: ACL 2025
arXiv: 2505.12265
代码: 无
领域: 其他（LLM 幻觉检测）
关键词: 幻觉检测, 长文本生成, 辅助任务, 微调, 无参考检测

一句话总结¶

系统性地研究了开放域长文本生成中的无参考幻觉检测问题，发现 LLM 内部状态（概率/熵）不足以可靠区分事实与幻觉内容，并提出 RATE-FT（Rationale and Auxiliary Task Enhanced Fine-Tuning），通过引入推理解释和辅助 QA 任务增强微调，在 LongFact 上比普通微调提升 3% 以上。

研究背景与动机¶

LLM 幻觉（生成与事实不符的内容）仍然是一个核心挑战。在开放域长文本生成中，这个问题尤为棘手：

与短文本的差异：短文本任务（输出仅几个 token）中，模型内部状态（输出概率、熵）常被用于检测幻觉。但长文本响应可能跨越数百甚至数千 token，需要跨多个知识领域综合信息

现有方法的局限： - 限于特定领域（如传记生成） - 依赖外部事实核查工具（如 Google Search），不总是可用或可扩展

核心问题：能否开发仅依赖模型自身的幻觉检测器，无需外部工具？

论文首先通过实证分析表明，LLM 的内部状态在长文本场景下不能可靠地（即不优于随机猜测）区分事实与幻觉声明。这与短文本场景下 SelfCheckGPT 的发现形成鲜明对比，揭示了长文本幻觉检测的独特挑战。

方法详解¶

整体框架¶

研究路径是渐进式的：

先验分析：验证 LLM 内部状态是否足够
系统比较：评估提示（Prompting）、探测（Probing）、微调（Fine-Tuning）三类方法
提出 RATE-FT：在微调基础上引入推理解释 + 辅助 QA 任务

关键设计¶

数据构建（基于 LongFact 数据集）： 1. 对每个 prompt，用 Llama-3-8B-Instruct（贪心解码）生成长文本响应 2. 用模型将响应分解为原子化声明（atomized claims） 3. 评估每个声明与 prompt 的相关性 4. 对相关声明，生成多步 Google Search 查询并判断搜索结果是否支持 5. 得到标注为"事实"或"幻觉"的声明集（2,394 事实 + 223 幻觉）

内部状态分析（先验实验）： - 检测了多种内部状态变体： - 所有 token 的算术/几何平均概率和熵 - Top-K最低概率/最高熵 token 的平均值（K=1,3,5） - Top-P%最低概率/最高熵 token 的平均值（P=5,10,15） - 仅实体相关 token 的概率和熵 - 结论：所有变体都无法可靠区分事实与幻觉声明 - 原因分析：长文本中，概率/熵反映的是模型对声明"表达方式"的信心，而非对声明"正确性"的信心——同一事实的不同表述会产生不同的置信度

三类现有方法比较： 1. Prompting：直接提示模型判断（\(\text{Prompt}_\text{TF}\)、\(\text{Prompt}_\text{Prob}\)、SelfCheckGPT） 2. Probing：在冻结 LLM 上训练 MLP 分类器，使用上下文化嵌入 3. Fine-Tuning：LoRA 微调基础 LLM，增强其输出 True/False 的能力

RATE-FT 的核心创新：

引入推理解释（Rationale）： - 在微调数据中加入数据构建阶段收集的推理解释（为什么搜索结果支持/反驳声明） - 采用"label-rationale"格式：先输出标签后输出解释，使推理时仅需第一个 token 即可获取 \(P_\text{factual}\)，不增加推理成本

引入辅助 QA 任务： - 灵感来自人类学习中"通过不同视角重复巩固知识"的原理 - 对每个声明，用模型生成关于其关键信息的问题 - 事实声明：从声明中提取正确答案 + 解释 - 幻觉声明：利用 rationale 引导模型生成正确答案 + 解释 - 将这些 QA 样本与原始检测数据合并进行联合训练

损失函数 / 训练策略¶

使用 LLaMA-Factory 进行 LoRA 微调
训练数据分为 70% 训练 / 20% 验证 / 10% 测试
在验证集上搜索最优超参数和分类阈值
评估指标：平衡准确率（BAcc）= \(\frac{1}{2}(\frac{TP}{TP+FN} + \frac{TN}{TN+FP})\)

实验关键数据¶

主实验¶

在 LongFact 和 Biography 数据集上，使用 Llama-3-8B-Instruct：

方法	LongFact BAcc	Biography BAcc
\(\text{Prompt}_\text{TF}\)	69.9%	72.3%
\(\text{Prompt}_\text{Prob}\)	53.4%	56.3%
SelfCheckGPT	69.1%	71.9%
\(\text{Prompt}_\text{CoT-TF}\)	74.9%	74.8%
Probing	74.4%	77.0%
Fine-Tuning	76.1%	78.2%
RATE-FT	79.6%	80.9%

RATE-FT 在两个数据集上都显著优于所有基线方法（p<0.01）。

OOD（分布外）泛化：在 LongFact 上训练，Biography 上评估，Fine-Tuning 达到 74.7%，仍优于其他方法。

消融实验¶

方法	LongFact	Biography
Fine-Tuning	76.1%	78.2%
RATE-FT w.o. aux	77.5%	79.4%
RATE-FT w.o. rationale	77.9%	79.5%
RATE-FT（完整）	79.6%	80.9%

两个组件都有贡献，辅助任务和推理解释各自移除后性能均下降。

辅助任务 vs 数据增强： - 用 GPT-4 对原始声明进行改写来增加数据（\(\text{Fine-Tuning}_\text{para}\)）：76.8% - 减半 RATE-FT 的训练数据（\(\text{RATE-FT}_\text{half}\)）：78.5% - 结论：性能提升主要来自辅助 QA 任务的设计，而非单纯的数据增量

跨模型泛化（在 LongFact 上）：

模型	Fine-Tuning	RATE-FT
Llama-3.1-70B-Instruct	80.6%	83.8%
Mistral-7B-Instruct	70.8%	73.4%
Qwen2.5-7B-Instruct	78.4%	81.1%

RATE-FT 在所有模型上一致优于基线，展现出强泛化性。

关键发现¶

LLM 内部状态对长文本无效：与短文本场景的发现截然不同。原因是长文本中 token 概率反映的是"表达信心"而非"事实信心"
Fine-Tuning > Probing > Prompting：在检测有效性上有明确的方法层级
辅助 QA 任务是独立于数据增量的有效机制：提供互补学习视角比简单增加更多同类数据更有效
不确定性整合：设置双阈值（\(\alpha_\text{low}\), \(\alpha_\text{high}\)），将不确定声明标记为"unknown"并委托外部工具，BAcc-unknown 进一步提升至 85.0%
响应长度鲁棒性：RATE-FT 在不同长度区间（<500、500-1000、>1000 token）均一致优于 Fine-Tuning

亮点与洞察¶

系统性研究方法论：从内部状态分析出发，逐步排除无效方法，最终定位到微调+辅助任务的最优路径，研究逻辑非常清晰
辅助 QA 任务的认知学习灵感：借鉴人类"在不同情境中重复巩固知识"的学习原理，设计了与主任务互补的辅助任务，这是一个简洁但有效的创新
推理时无需外部工具：虽然训练数据构建使用了 Google Search，但推理时完全自包含，确保了实际部署的可行性
不确定性整合框架：提出的双阈值+外部工具混合管道，为实际场景提供了灵活的部署选择
"label-rationale"格式的创新——训练时学习推理，推理时只需看第一个 token，巧妙地将 CoT 的效益融入微调而不增加推理开销

局限与展望¶

仅关注检测器性能的提升，未探索如何利用检测反馈作为奖励信号来引导 LLM 生成更事实性的内容
基准数据集的领域覆盖仍有限（LongFact 38个领域 + Biography），更大规模的基准将增强适用性
训练数据构建依赖 Google Search 进行标注，存在搜索结果质量和覆盖面的潜在限制
幻觉声明在数据中的比例天然偏低（2394 事实 vs 223 幻觉），可能影响模型对幻觉的敏感性
未关注忠实性幻觉（faithfulness hallucination），仅处理事实性幻觉

评分¶

新颖性: ⭐⭐⭐⭐ — 辅助 QA 任务增强检测是新颖且有效的范式
实用性: ⭐⭐⭐⭐ — 推理时无需外部工具，适合实际部署
实验充分度: ⭐⭐⭐⭐⭐ — 系统比较、消融、跨模型/跨数据集验证非常全面
写作质量: ⭐⭐⭐⭐⭐ — 研究逻辑清晰，从现象到方法到验证层层递进