LogitDynamics: Reliable ViT Error Detection from Layerwise Logit Trajectories¶

会议: CVPR 2026
arXiv: 2604.10643
代码: 无
领域: AI安全/可靠性
关键词: 错误预测, 置信度估计, Vision Transformer, 层间动态, 幻觉检测

一句话总结¶

LogitDynamics 通过在 ViT 各层附加轻量分类头，提取层间 logit 轨迹和 top-K 竞争动态特征，训练线性探针来预测模型错误，在跨数据集泛化上优于现有方法。

领域现状：可靠的置信度估计对高风险场景至关重要。现有方法包括贝叶斯不确定性估计（MC Dropout、深度集成）和基于 logit/softmax 的后验方法。

现有痛点：现代模型即使错误时也可能过度自信，分布偏移下更加明显。单一最终层 logit 忽略了类别证据在网络深度上的演化过程。

核心矛盾：最终层的置信度分数是一个静态快照，无法反映模型在推理过程中"信念"的变化稳定性。

本文目标：利用 ViT 内部层间信号来更好地预测模型何时会犯错。

切入角度：受 LLM 幻觉检测中利用内部信号的启发，检验 ViT 中是否存在类似的深度方向信号。

核心 idea：正确预测往往表现出稳定的 top-K 结构，错误预测则伴随 top 类别的剧烈波动——捕获这种层间动态可以预测错误。

冻结预训练 ViT → 在最后 L 层各附加线性分类头 → 提取层间 logit 特征 + top-K 动态统计特征 → 拼接为特征向量 → 训练线性探针预测错误指示器。

层间类别投影（Layer-wise Class Projections）:
- 功能：暴露各层的中间类别证据
- 核心思路：对最后 L 层的 CLS token 各训练一个轻量线性头，产生层间 logit 序列。从每层提取目标类 logit 和 top-K 竞争类 logit，加上最终分类器的对应向量，拼接为 \((L+1)(K+1)\) 维特征
- 设计动机：先前研究已表明中间预测可能跨层变化甚至出现"overthinking"行为，这些变化模式对错误预测有信息量
Top-K 动态特征:
- 功能：量化模型 top 假设在深度方向的稳定性
- 核心思路：计算 7 个统计量——Top-1 切换率、Top-K 加权 Jaccard 相似度、唯一 Top-K 计数、Top-1 众数频率、Top-1 熵、Top-1 唯一计数、Top-1 锁定深度
- 设计动机：正确预测通常早期锁定且稳定，错误预测伴随 top 类别的剧烈竞争。这些统计量捕获了分布偏移下的鲁棒性信号
线性错误预测器:
- 功能：将上述特征映射为错误概率
- 核心思路：简单的线性分类器，骨干网络完全冻结，推理时仅需单次前向传播加少量线性计算
- 设计动机：保持与后验置信度估计相同的效率，同时引入更丰富的内部信号

层间线性头用标准交叉熵训练（冻结骨干），错误预测器用二元交叉熵训练。

数据集	指标(AUCPR)	LogitDynamics	Top-K logits	提升
ImageNet	AUCPR	0.6458	0.6098	+0.036
CIFAR-100	AUCPR	0.4430	0.4164	+0.027
Places365	AUCPR	0.7232	0.7283	-0.005

配置	域内均值	跨域均值	说明
w/ dynamics	基线	+0.0155	动态特征改善跨域迁移
w/o dynamics	基线	基线	域内略好但跨域差