HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs¶
会议: ACL 2025
arXiv: 2506.00088
领域: LLM 幻觉检测 / 神经微分方程
关键词: 幻觉检测, Neural ODE, Neural CDE, Neural SDE, 隐状态轨迹, 分类器
一句话总结¶
本文首次将神经微分方程(Neural DEs)应用于LLM幻觉检测,通过对隐空间中token激活的连续轨迹建模来系统评估陈述的真实性,在True-False数据集上AUC-ROC超过SOTA 14%以上。
研究背景与动机¶
幻觉是LLM部署的核心挑战:LLM生成不准确或非事实陈述的问题一直是实际应用中的重大障碍,可能导致客户流失或法律风险。
现有检测方法的不足: - 证据-based方法(检索外部知识验证):计算密集、耗时,不适合高吞吐场景 - Logit-based方法(如AvgProb、AvgEnt):通过token级不确定性估计句子级不确定性,但粒度粗 - 一致性-based方法(如SelfCheckGPT):多次生成判断一致性,效率低 - 分类-based方法(如SAPLMA):效率高但仅利用最后一个token的隐状态,当非事实信息出现在序列中前或中间时性能下降
最后一个token不够用:通过PCA分析发现,对于同一问题的正确和错误答案,最后几个token的隐状态激活几乎相同(因为结尾token相同),而差异主要体现在序列中间部分。这说明需要利用整个序列的隐状态信息。
Neural DEs的理论契合: - Transformer数学上可解释为微分方程的数值求解器(Lu et al., 2019) - Neural DEs在时间序列建模中表现优异,天然适合建模token级隐状态的动态演化 - 可以将token生成过程视为隐空间中的连续轨迹
方法详解¶
整体框架¶
HD-NDEs的工作流程:
- 特征提取:将陈述输入LLM,提取每个token在指定隐藏层的嵌入 \(\boldsymbol{x} = (x_0, x_1, ..., x_n) \in \mathbb{R}^{d_x}\)
- 降维投影:使用PCA将高维嵌入投影到低维空间 \(\boldsymbol{y} = (y_0, y_1, ..., y_n) \in \mathbb{R}^{d_y}\)
- Neural DE求解:用Neural ODE/CDE/SDE建模隐空间轨迹 \(\boldsymbol{z} = (z_0, z_1, ..., z_n)\)
- 分类判断:从隐状态中提取 \(z^*\),通过线性分类器输出幻觉概率 \(P(\xi=1|\boldsymbol{x})\)
三种Neural DE变体¶
Neural ODEs:通过确定性微分方程建模平滑、连续时间的动态:
初始条件 \(z(0) = h(\boldsymbol{y}; \theta_h)\),其中 \(f\) 和 \(h\) 是可学习的神经网络。使用四阶Runge-Kutta(RK4)求解。
Neural CDEs:引入控制信号引导系统演化,解决Neural ODE只由初始条件决定的局限:
控制路径 \(Y(t)\) 采用自然三次样条或Hermite样条对时间序列数据进行插值构建。
Neural SDEs:加入随机噪声项来捕获系统中的不确定性:
其中 \(\{W_t\}_{t \geq 0}\) 是布朗运动,使用Euler-Maruyama方法求解。
分类器设计¶
从隐状态序列 \(\boldsymbol{z}\) 通过函数 \(k(\theta_k)\) 提取特征 \(z^*\),再经过简单的线性层+sigmoid函数输出幻觉概率。整个分类器参数量极小。
反向传播¶
使用adjoint方法进行梯度计算,以常数内存代价实现从最终状态到初始状态的参数更新。
实验关键数据¶
实验设置¶
- 5个数据集:Company, Fact, City, Invention, True-False
- 6个LLM:LLama-2-7B, LLama-2-13B, Alpaca-13B, Vicuna-13B, Mistral-7B-v0.3, Gemma-2-9B
- 基线方法:P(True), AvgProb, AvgEnt, EUBHD, SAPLMA, MIND, Probe@Exact
- 评估指标:AUC-ROC
主要结果(AUC-ROC)¶
Company数据集:
| 方法 | LLama-2-7B | LLama-2-13B | Vicuna-13B | Gemma-2-9B |
|---|---|---|---|---|
| SAPLMA | 54.0 | 58.2 | 68.2 | 64.8 |
| MIND | 56.4 | 60.3 | 69.8 | 65.9 |
| Neural CDEs | 65.9 | 72.8 | 79.8 | 73.6 |
| Neural SDEs | 73.8 | 78.4 | 72.3 | 72.8 |
City数据集:
| 方法 | LLama-2-7B | LLama-2-13B | Vicuna-13B | Gemma-2-9B |
|---|---|---|---|---|
| SAPLMA | 60.0 | 69.3 | 64.5 | 64.7 |
| Neural ODEs | 73.0 | 82.3 | 73.2 | 72.4 |
| Neural CDEs | 75.7 | 80.6 | 80.1 | 77.2 |
关键数据亮点¶
- True-False数据集:HD-NDEs(Neural CDEs变体)在AUC-ROC上超过SAPLMA等SOTA方法14%以上
- Neural CDEs通常表现最好,因为控制信号机制能更好地利用序列中的时间信息
- Neural SDEs在部分数据集上优于Neural CDEs,因为随机项有助于捕获生成过程中的内在不确定性
- 即使是最简单的Neural ODEs也普遍优于所有分类-based基线
跨模型一致性¶
- HD-NDEs在所有6个LLM上均优于基线方法,展现了优秀的跨模型泛化能力
- 模型规模越大(7B→13B),HD-NDEs的提升幅度通常更显著
亮点与洞察¶
- 理论动机清晰:通过PCA可视化直接展示了仅用最后token检测幻觉的失败案例,动机令人信服
- Neural DEs与Transformer的深层联系:利用Transformer可类比为ODE求解器的理论,为将Neural DEs用于LLM分析提供了坚实基础
- 方法简洁高效:分类器仅是简单线性层,主要学习在Neural DE建模的隐空间中做判断,无需训练大型模型
- 三种DE变体的互补性:ODE捕获确定性动态、CDE引入外部控制、SDE建模随机性,覆盖了不同场景需求
局限性¶
- 需要白盒访问:必须获取LLM的中间层隐状态,无法用于黑盒API模型(如GPT-4、Claude等)
- PCA降维的信息损失:高维嵌入到低维空间的PCA投影可能丢失重要信息
- 句子级检测粒度:仅能判断整个陈述是否为幻觉,无法精确定位哪些token不准确
- 训练数据需求:需要为每个LLM分别收集标注数据训练Neural DE参数,跨模型迁移性未验证
- 计算开销:Neural DE求解器(尤其RK4和adjoint方法)的计算开销比简单分类器要大
相关工作¶
- 幻觉检测:SAPLMA (Azaria and Mitchell, 2023) 用最后token隐状态训练分类器;MIND和Probe@Exact改进特征提取
- Neural DEs:Chen et al. (2018) 提出Neural ODE用于连续深度网络;Kidger et al. (2020) 提出Neural CDE处理时序数据
- LLM与动态系统:Lu et al. (2019) 首次将Transformer与ODE类比
评分¶
⭐⭐⭐⭐ — 新颖性突出,首次将Neural DEs应用于幻觉检测,理论动机清晰、实验改进显著(14%+)。白盒访问的限制是主要瓶颈,但对于开源LLM场景非常有价值。
相关论文¶
- [ACL 2025] Automated Explanation Generation and Hallucination Detection for Heritage Image Retrieval
- [ACL 2025] Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation
- [ACL 2025] Fine-grained Hallucination Detection and Mitigation in Long-form Question Answering
- [ACL 2026] Enhancing Hallucination Detection via Future Context
- [ICLR 2026] Enhancing Hallucination Detection through Noise Injection