Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT¶
会议: NeurIPS 2025
arXiv: 2510.00296
代码: https://github.com/BarSGuy/ACT-ViT
领域: LLM/NLP
关键词: 幻觉检测, 激活张量, Vision Transformer, 跨模型泛化, Probing
一句话总结¶
将LLM的全部隐层激活组织为"激活张量"(层×token×隐维度),类比图像用ViT处理,设计ACT-ViT架构支持跨LLM联合训练,在15个LLM-数据集组合上一致超越传统probing方法,并展现出对未见数据集和未见LLM的强零样本/少样本迁移能力。
研究背景与动机¶
领域现状:检测LLM幻觉的方法中,probing分类器(在隐层表征上训练线性分类器)是高效的白盒方法。但传统probing在孤立的单层-单token位置上操作,需要预先确定最佳层和token位置。
现有痛点: - 信号位置不固定:最佳probing位置在不同样本、不同数据集、不同LLM之间变化很大——Mistral的最佳位置是(第14层, token 0),而Qwen的最佳位置在最后几层的末尾token - LLM特异性:每个LLM都需要单独训练探针,无法跨模型共享数据集或迁移学习 - 不完整利用:只用一个层-token位置的激活,浪费了大量信息
核心洞察:激活张量 \(\mathbf{A} \in \mathbb{R}^{L \times N \times D}\)(层数×token数×隐维度)在结构上类似于图像(高×宽×通道),可以借用视觉模型的方法来处理。
核心 idea:把LLM的全部隐层激活当作"图像",用ViT自适应地attend到最有信息量的层-token组合,实现跨LLM的高效幻觉检测。
方法详解¶
整体框架¶
提取LLM的激活张量 → Pooling压缩空间维度(层和token方向) → 每个LLM用专属的Linear Adapter映射到共享特征空间 → 共享的ViT Backbone处理 → 二分类(幻觉/正确)。
关键设计¶
-
激活张量(Activation Tensor):
- 定义:\(\mathbf{A} \in \mathbb{R}^{L_M \times N \times D_M}\),包含LLM所有层在所有输出token上的隐层状态
- 与图像的类比:层→垂直空间维度,token→水平空间维度,隐维度→通道
- 包含了完整的内部状态信息,避免了选择特定层/token的信息损失
-
Pooling + Linear Adapter:
- Pooling:对"空间"维度(层和token)做max-pooling,统一为固定大小 \((L_p, N_p) = (8, 100)\),解决不同LLM层数不同、不同输入token数不同的问题
- Linear Adapter:每个LLM \(M\) 有独立的线性变换 \(\mathbf{W}_M \in \mathbb{R}^{D_M \times D'}\),将不同隐维度映射到共享维度 \(D'\)
- 设计动机:受"不同LLM学习了近似线性可转换的真实世界表征"这一假设驱动。单个线性层足以对齐不同LLM的特征空间
-
ViT-Based Backbone:
- 将pooled+adapted的张量切成不重叠的patch,添加patch内位置编码+全局位置编码
- 展平patch后通过标准Transformer编码器
- 自注意力机制让模型自适应地attend到最有幻觉信号的层-token位置,无需预先指定
训练策略¶
- 联合训练:在所有可用LLM和数据集上同时训练,共享ViT backbone,各LLM独立LA
- 对新LLM的迁移:冻结backbone,只训练新LLM的LA(轻量级适配)
- 在单GPU上3小时内训练完全部15个组合,推理速度 \(\approx 10^{-5}\) 秒/样本
实验关键数据¶
主实验(AUC,15个LLM-数据集组合)¶
| 方法 | Mis-7B Movies | LlaMa-8B TriviaQA | Qwen-7B HQA | 平均提升 |
|---|---|---|---|---|
| Logits-mean | 63.0 | 66.0 | 66.2 | - |
| Probe[*] (最佳层-token) | ~80-85 | ~75-82 | ~72-80 | - |
| ACT-ViT(s) (单组合) | ~85-88 | ~80-84 | ~78-83 | +3-5 vs Probe |
| ACT-ViT (多LLM联合) | ~88-92 | ~84-88 | ~82-87 | +5-10 vs Probe |
迁移学习¶
| 设置 | 效果 |
|---|---|
| 零样本到新数据集(已见LLM) | 强泛化,很多情况超过在目标数据集上训练的Probe |
| 5%数据微调LA到新LLM | 在多数情况下超过在100%数据上训练的单模型Probe |
| 多LLM联合 vs 单LLM | 联合训练一致更好,跨LLM知识确实互补 |
关键发现¶
- ACT-ViT在15个组合中一致超越传统probing,平均提升显著
- 多LLM联合训练显著优于单模型训练——不同LLM的幻觉信号可以互补
- 对新LLM只需训练LA(参数极少),5%数据就够——实际部署场景非常友好
- 零样本对新数据集泛化也很强,说明幻觉检测信号有跨任务共性
- ViT的自注意力比MLP更有效——ACT-MLP(flatten后用MLP)性能明显更差
亮点与洞察¶
- "激活张量=图像"的类比非常优雅:把一个NLP问题转化为视觉问题,借用ViT的自注意力机制自适应地找到最有信号的层-token位置,完全避免了传统probing需要预先选位置的难题
- 跨LLM联合训练的成功验证了一个重要假设:不同LLM编码幻觉的方式存在共性,可以通过线性变换对齐
- 极致的效率:推理\(10^{-5}\)秒/样本(比LLM-based检测方法快5个数量级),训练3小时搞定15个组合
局限与展望¶
- 需要白盒访问LLM的所有层隐状态——对API-only模型不适用
- 激活张量的存储开销大(单个LLM约0.2GB/样本),大规模部署需要优化存储
- 只测试了7-8B规模的模型,对更大(70B+)或更小(1B)模型的效果未知
- 线性适配假设可能在架构差异很大的LLM之间不成立
- 只关注事实性QA类幻觉——对推理错误、主观偏见等更复杂的错误类型效果未知
相关工作与启发¶
- vs Orgad et al. (2024):他们发现"exact token"probing的重要性但仍需外部算法定位。ACT-ViT通过处理完整激活张量自动解决了定位问题
- vs logits/概率方法:不需训练但信息有限(只用输出层)。ACT-ViT利用所有层的信息
- 对可解释性的启示:ViT的attention map可以揭示幻觉信号主要来自哪些层-token组合,为LLM可解释性提供新视角
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 激活张量类比图像的视角和跨LLM联合训练范式都是全新的
- 实验充分度: ⭐⭐⭐⭐⭐ 15个组合、多种设置(单模型/多模型/零样本/少样本/迁移)、完整消融
- 写作质量: ⭐⭐⭐⭐⭐ 类比直观,Figure 1设计精美,实验分析系统性强
- 价值: ⭐⭐⭐⭐⭐ 为幻觉检测提供了高效通用的新范式,跨LLM迁移能力是重要突破
相关论文¶
- [NeurIPS 2025] Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits
- [ICLR 2026] Beyond Linear Probes: Dynamic Safety Monitoring for Language Models
- [NeurIPS 2025] CBMAS: Cognitive Behavioral Modeling via Activation Steering
- [NeurIPS 2025] Probabilistic Token Alignment for Large Language Model Fusion
- [NeurIPS 2025] VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity