Steer LLM Latents for Hallucination Detection¶
会议: ICML 2025
arXiv: 2503.01917
代码: -
领域: LLM Safety / Hallucination Detection
关键词: steering vector, hallucination detection, optimal transport, pseudo-labeling, TSV
一句话总结¶
提出 Truthfulness Separator Vector (TSV),一种轻量级 steering vector,在推理时重塑 LLM 表示空间以增强真实与幻觉输出的分离,仅需 32 个标注样本即可接近全监督性能。
研究背景与动机¶
领域现状¶
领域现状:LLM 幻觉是安全部署的重大隐患
核心矛盾¶
核心矛盾:现有基于潜在空间的方法依赖预训练 LLM 嵌入,但这些嵌入被优化为语言连贯性而非事实准确性
现有痛点¶
现有痛点:预训练嵌入中真实和幻觉内容重叠严重(见 T-SNE 可视化)
解决思路¶
解决思路:微调 LLM 计算昂贵且改变模型参数
补充说明¶
补充说明:核心问题**:如何在不修改模型参数的前提下重塑潜在空间以区分幻觉?
方法详解¶
1. Truthfulness Separator Vector (TSV)¶
定义可训练向量 \(\mathbf{v} \in \mathbb{R}^d\),在推理时添加到中间层 \(l\) 的隐状态:
其中 \(\lambda\) 控制干预强度。TSV 跨所有 token 位置共享,通过后续非线性变换影响最终层嵌入。
2. 初始训练阶段¶
使用 von Mises-Fisher 分布建模最终层嵌入,类条件概率为:
其中 \(\mathbf{r}^{\mathbf{v}}\) 为归一化后的最终嵌入,\(\boldsymbol{\mu}_c\) 为类原型。
训练目标:最大化 exemplar set \(\mathcal{D}_E\) 上的对数似然:
3. 增强训练阶段¶
基于最优传输的伪标签分配¶
对无标签数据 \(\mathcal{D}_U\),通过 Sinkhorn 算法求解最优传输问题分配伪标签:
约束包括行和为 \(1/M\)(每个样本总概率为 1)和列和匹配类分布 \(\mathbf{w}\)。
置信度筛选¶
仅选择预测不确定性最低的 \(K\) 个伪标签样本加入训练:
其中 \(\Omega_i\) 为交叉熵衡量的不确定性。
实验结果¶
主实验:TruthfulQA (AUROC)¶
| 方法 | LLaMA-3.1-8B |
|---|---|
| CCS | 58.1 |
| SAPLMA | 63.2 |
| Probing (supervised) | 71.3 |
| HaloScope | 71.4 |
| TSV (32 exemplars) | 84.2 |
| 全监督上界 | 85.5 |
- TSV 比 SOTA 提升 +12.8% AUROC
- 仅用 32 个标注样本即接近全监督上界 (84.2% vs 85.5%)
跨数据集泛化¶
在 TriviaQA 和 HaluEval 上测试在 TruthfulQA 训练的 TSV: - 保持竞争力,展示良好的分布外泛化
消融实验¶
| 组件 | AUROC |
|---|---|
| TSV (仅初始训练) | 79.8 |
| + OT 伪标签 | 82.5 |
| + 置信度筛选 | 84.2 |
| 无 TSV (直接用嵌入) | 71.3 |
- 每个组件都有明确贡献
- 最佳干预层:中间层(约第 16 层,32 层总共)
亮点与洞察¶
- 首次将 steering vector 用于幻觉检测(而非生成缓解),填补了重要空白
- 最优传输伪标签分配考虑了类不平衡,优于简单阈值方法
- 极少标注需求(32 个)即可达到近全监督性能,实用性极强
- 不修改模型参数,可在生成完成后再应用 TSV
- von Mises-Fisher 分布建模与 RMSNorm 后嵌入的单位范数特性完美匹配
局限与展望¶
- \(\lambda\) 和干预层 \(l\) 的选择需要在验证集上调优
- 对不同 LLM 可能需要重新训练 TSV
- 仅在封闭式 QA 任务上验证,对开放生成场景效果未知
- 伪标签的类分布先验 \(\mathbf{w}\) 来自 exemplar set,可能不准确
- 理论上缺乏 TSV 为何能有效分离的深层解释
评分¶
⭐⭐⭐⭐⭐ — 方法轻量优雅、效果惊人,32 个标注样本接近全监督上界,在幻觉检测领域意义重大。
相关论文¶
- [ICML 2025] DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning
- [ICLR 2026] BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation
- [NeurIPS 2025] Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs
- [ICML 2025] Position: LLM Social Simulations Are a Promising Research Method
- [ICML 2025] Sketch to Adapt: Fine-Tunable Sketches for Efficient LLM Adaptation