Steer LLM Latents for Hallucination Detection¶

会议: ICML 2025
arXiv: 2503.01917
代码: -
领域: LLM Safety / Hallucination Detection
关键词: steering vector, hallucination detection, optimal transport, pseudo-labeling, TSV

一句话总结¶

提出 Truthfulness Separator Vector (TSV)，一种轻量级 steering vector，在推理时重塑 LLM 表示空间以增强真实与幻觉输出的分离，仅需 32 个标注样本即可接近全监督性能。

研究背景与动机¶

领域现状¶

领域现状：LLM 幻觉是安全部署的重大隐患

核心矛盾¶

核心矛盾：现有基于潜在空间的方法依赖预训练 LLM 嵌入，但这些嵌入被优化为语言连贯性而非事实准确性

现有痛点¶

现有痛点：预训练嵌入中真实和幻觉内容重叠严重（见 T-SNE 可视化）

解决思路¶

解决思路：微调 LLM 计算昂贵且改变模型参数

补充说明¶

补充说明：核心问题**：如何在不修改模型参数的前提下重塑潜在空间以区分幻觉？

方法详解¶

1. Truthfulness Separator Vector (TSV)¶

定义可训练向量 \(\mathbf{v} \in \mathbb{R}^d\)，在推理时添加到中间层 \(l\) 的隐状态：

\[\mathbf{h}^{(l)} \leftarrow \mathbf{h}^{(l)} + \lambda \mathbf{v}\]

其中 \(\lambda\) 控制干预强度。TSV 跨所有 token 位置共享，通过后续非线性变换影响最终层嵌入。

2. 初始训练阶段¶

使用 von Mises-Fisher 分布建模最终层嵌入，类条件概率为：

\[p(c|\mathbf{r}^{\mathbf{v}}) = \frac{\exp(\kappa \boldsymbol{\mu}_c^\top \mathbf{r}^{\mathbf{v}})}{\sum_{c'} \exp(\kappa \boldsymbol{\mu}_{c'}^\top \mathbf{r}^{\mathbf{v}})}\]

其中 \(\mathbf{r}^{\mathbf{v}}\) 为归一化后的最终嵌入，\(\boldsymbol{\mu}_c\) 为类原型。

训练目标：最大化 exemplar set \(\mathcal{D}_E\) 上的对数似然：

\[\mathcal{L} = -\frac{1}{|\mathcal{D}_E|}\sum_{i=1}^{|\mathcal{D}_E|}\sum_{c \in \mathcal{C}} q(c|\mathbf{r}_i^{\mathbf{v}}) \log p(c|\mathbf{r}_i^{\mathbf{v}})\]

3. 增强训练阶段¶

基于最优传输的伪标签分配¶

对无标签数据 \(\mathcal{D}_U\)，通过 Sinkhorn 算法求解最优传输问题分配伪标签：

\[\min_{\mathbf{Q} \in [0,1]^{M \times 2}} -\sum_{m,c} \mathbf{Q}_{m,c} \log \mathbf{P}_{m,c} - \epsilon H(\mathbf{Q})\]

约束包括行和为 \(1/M\)（每个样本总概率为 1）和列和匹配类分布 \(\mathbf{w}\)。

置信度筛选¶

仅选择预测不确定性最低的 \(K\) 个伪标签样本加入训练：

\[\mathcal{D}_S = \{\mathcal{D}_U^j \mid j \in \text{TopK}_{i}(-\Omega_i)\}\]

其中 \(\Omega_i\) 为交叉熵衡量的不确定性。

实验结果¶

主实验：TruthfulQA (AUROC)¶

方法	LLaMA-3.1-8B
CCS	58.1
SAPLMA	63.2
Probing (supervised)	71.3
HaloScope	71.4
TSV (32 exemplars)	84.2
全监督上界	85.5

TSV 比 SOTA 提升 +12.8% AUROC
仅用 32 个标注样本即接近全监督上界 (84.2% vs 85.5%)

跨数据集泛化¶

在 TriviaQA 和 HaluEval 上测试在 TruthfulQA 训练的 TSV： - 保持竞争力，展示良好的分布外泛化

消融实验¶

组件	AUROC
TSV (仅初始训练)	79.8
+ OT 伪标签	82.5
+ 置信度筛选	84.2
无 TSV (直接用嵌入)	71.3

每个组件都有明确贡献
最佳干预层：中间层（约第 16 层，32 层总共）

亮点与洞察¶

首次将 steering vector 用于幻觉检测（而非生成缓解），填补了重要空白
最优传输伪标签分配考虑了类不平衡，优于简单阈值方法
极少标注需求（32 个）即可达到近全监督性能，实用性极强
不修改模型参数，可在生成完成后再应用 TSV
von Mises-Fisher 分布建模与 RMSNorm 后嵌入的单位范数特性完美匹配

局限与展望¶

\(\lambda\) 和干预层 \(l\) 的选择需要在验证集上调优
对不同 LLM 可能需要重新训练 TSV
仅在封闭式 QA 任务上验证，对开放生成场景效果未知
伪标签的类分布先验 \(\mathbf{w}\) 来自 exemplar set，可能不准确
理论上缺乏 TSV 为何能有效分离的深层解释

评分¶

⭐⭐⭐⭐⭐ — 方法轻量优雅、效果惊人，32 个标注样本接近全监督上界，在幻觉检测领域意义重大。