Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT¶

会议: NeurIPS 2025
arXiv: 2510.00296
代码: https://github.com/BarSGuy/ACT-ViT
领域: LLM/NLP
关键词: 幻觉检测, 激活张量, Vision Transformer, 跨模型泛化, Probing

一句话总结¶

将LLM的全部隐层激活组织为"激活张量"（层×token×隐维度），类比图像用ViT处理，设计ACT-ViT架构支持跨LLM联合训练，在15个LLM-数据集组合上一致超越传统probing方法，并展现出对未见数据集和未见LLM的强零样本/少样本迁移能力。

研究背景与动机¶

领域现状：检测LLM幻觉的方法中，probing分类器（在隐层表征上训练线性分类器）是高效的白盒方法。但传统probing在孤立的单层-单token位置上操作，需要预先确定最佳层和token位置。

现有痛点： - 信号位置不固定：最佳probing位置在不同样本、不同数据集、不同LLM之间变化很大——Mistral的最佳位置是(第14层, token 0)，而Qwen的最佳位置在最后几层的末尾token - LLM特异性：每个LLM都需要单独训练探针，无法跨模型共享数据集或迁移学习 - 不完整利用：只用一个层-token位置的激活，浪费了大量信息

核心洞察：激活张量 \(\mathbf{A} \in \mathbb{R}^{L \times N \times D}\)（层数×token数×隐维度）在结构上类似于图像（高×宽×通道），可以借用视觉模型的方法来处理。

核心 idea：把LLM的全部隐层激活当作"图像"，用ViT自适应地attend到最有信息量的层-token组合，实现跨LLM的高效幻觉检测。

方法详解¶

整体框架¶

提取LLM的激活张量 → Pooling压缩空间维度(层和token方向) → 每个LLM用专属的Linear Adapter映射到共享特征空间 → 共享的ViT Backbone处理 → 二分类(幻觉/正确)。

关键设计¶

激活张量（Activation Tensor）：
- 定义：\(\mathbf{A} \in \mathbb{R}^{L_M \times N \times D_M}\)，包含LLM所有层在所有输出token上的隐层状态
- 与图像的类比：层→垂直空间维度，token→水平空间维度，隐维度→通道
- 包含了完整的内部状态信息，避免了选择特定层/token的信息损失
Pooling + Linear Adapter：
- Pooling：对"空间"维度（层和token）做max-pooling，统一为固定大小 \((L_p, N_p) = (8, 100)\)，解决不同LLM层数不同、不同输入token数不同的问题
- Linear Adapter：每个LLM \(M\) 有独立的线性变换 \(\mathbf{W}_M \in \mathbb{R}^{D_M \times D'}\)，将不同隐维度映射到共享维度 \(D'\)
- 设计动机：受"不同LLM学习了近似线性可转换的真实世界表征"这一假设驱动。单个线性层足以对齐不同LLM的特征空间
ViT-Based Backbone：
- 将pooled+adapted的张量切成不重叠的patch，添加patch内位置编码+全局位置编码
- 展平patch后通过标准Transformer编码器
- 自注意力机制让模型自适应地attend到最有幻觉信号的层-token位置，无需预先指定

训练策略¶

联合训练：在所有可用LLM和数据集上同时训练，共享ViT backbone，各LLM独立LA
对新LLM的迁移：冻结backbone，只训练新LLM的LA（轻量级适配）
在单GPU上3小时内训练完全部15个组合，推理速度 \(\approx 10^{-5}\) 秒/样本

实验关键数据¶

主实验（AUC，15个LLM-数据集组合）¶

方法	Mis-7B Movies	LlaMa-8B TriviaQA	Qwen-7B HQA	平均提升
Logits-mean	63.0	66.0	66.2	-
Probe[*] (最佳层-token)	~80-85	~75-82	~72-80	-
ACT-ViT(s) (单组合)	~85-88	~80-84	~78-83	+3-5 vs Probe
ACT-ViT (多LLM联合)	~88-92	~84-88	~82-87	+5-10 vs Probe

迁移学习¶

设置	效果
零样本到新数据集（已见LLM）	强泛化，很多情况超过在目标数据集上训练的Probe
5%数据微调LA到新LLM	在多数情况下超过在100%数据上训练的单模型Probe
多LLM联合 vs 单LLM	联合训练一致更好，跨LLM知识确实互补

关键发现¶

ACT-ViT在15个组合中一致超越传统probing，平均提升显著
多LLM联合训练显著优于单模型训练——不同LLM的幻觉信号可以互补
对新LLM只需训练LA（参数极少），5%数据就够——实际部署场景非常友好
零样本对新数据集泛化也很强，说明幻觉检测信号有跨任务共性
ViT的自注意力比MLP更有效——ACT-MLP（flatten后用MLP）性能明显更差

亮点与洞察¶

"激活张量=图像"的类比非常优雅：把一个NLP问题转化为视觉问题，借用ViT的自注意力机制自适应地找到最有信号的层-token位置，完全避免了传统probing需要预先选位置的难题
跨LLM联合训练的成功验证了一个重要假设：不同LLM编码幻觉的方式存在共性，可以通过线性变换对齐
极致的效率：推理\(10^{-5}\)秒/样本（比LLM-based检测方法快5个数量级），训练3小时搞定15个组合

局限与展望¶

需要白盒访问LLM的所有层隐状态——对API-only模型不适用
激活张量的存储开销大（单个LLM约0.2GB/样本），大规模部署需要优化存储
只测试了7-8B规模的模型，对更大（70B+）或更小（1B）模型的效果未知
线性适配假设可能在架构差异很大的LLM之间不成立
只关注事实性QA类幻觉——对推理错误、主观偏见等更复杂的错误类型效果未知

评分¶

新颖性: ⭐⭐⭐⭐⭐ 激活张量类比图像的视角和跨LLM联合训练范式都是全新的
实验充分度: ⭐⭐⭐⭐⭐ 15个组合、多种设置（单模型/多模型/零样本/少样本/迁移）、完整消融
写作质量: ⭐⭐⭐⭐⭐ 类比直观，Figure 1设计精美，实验分析系统性强
价值: ⭐⭐⭐⭐⭐ 为幻觉检测提供了高效通用的新范式，跨LLM迁移能力是重要突破