Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings¶

会议: CVPR 2026
arXiv: 2604.08192
代码: GitHub
领域: 其他
关键词: 泛化度量, 电路发现, Vision Transformer, 分布偏移, 机制可解释性

一句话总结¶

提出基于模型内部电路（circuits）的泛化性能预测指标，包括部署前模型选择的Dependency Depth Bias（DDB）和部署后性能监控的Circuit Shift Score（CSS），分别比现有代理指标的相关性平均提升13.4%和34.1%。

研究背景与动机¶

可靠的泛化评估在机器学习部署中至关重要，尤其在标注稀缺的高风险场景（如医学成像）。核心挑战来自两个实际场景：

部署前模型选择：如何在无标注目标数据上选出最佳模型？ID准确率不可靠（underspecification问题：ID准确率相近的模型OOD表现差异巨大）
部署后性能监控：如何在持续分布偏移中检测性能下降？置信度指标不可靠（overconfidence问题：对错误预测也给出高置信度）

现有代理指标（如置信度、accuracy-on-the-line、RANKME等）仅分析模型外部行为（输出概率或特征质量），忽略了产生这些输出的内部机制。

本文核心idea：利用机制可解释性（Mechanistic Interpretability）中的电路发现技术，从模型内部计算路径中提取泛化信号——因为模型"怎么算"比"算出什么"更能反映其泛化能力。

方法详解¶

整体框架¶

通过电路发现（EAP-IG方法）提取ViT的连续边权电路
将电路聚合为层间依赖矩阵（IDM）
部署前：通过CCA发现"泛化基序"（Generalization Motif），设计DDB指标
部署后：通过电路偏移度量CSS监控性能退化

关键设计¶

连续电路定义与发现:
- 功能：将ViT的计算图表示为连续边权映射，量化每条边对模型行为的因果重要性
- 核心思路：对ViT计算图 \(\mathcal{G}=(\mathcal{V}, \mathcal{E})\)，定义电路为边权函数 \(c(e) = \mathbb{E}_{x \sim \mathcal{D}}[KL(\mathcal{M}_{\setminus\{e\}}(x), \mathcal{M}(x))]\)，即移除边e后模型输出的KL散度。采用均值消融（mean ablation）替代互换消融，更适合视觉任务。使用EAP-IG方法平衡了忠实度和计算效率
- 设计动机：传统二值电路丢失了细粒度信息，连续松弛保留了评估泛化所需的更丰富结构信息。全过程无需标签
Dependency Depth Bias (DDB) — 部署前指标:
- 功能：量化模型对深层vs浅层特征的相对依赖程度，预测OOD泛化能力
- 核心思路：将电路边权聚合为层间依赖矩阵 \(\Lambda_{ij}\)，通过CCA发现跨任务的"通用泛化基序"——泛化好的模型依赖深层路径（∇形），泛化差的模型依赖浅层捷径（Δ形）。DDB定义为深层边权总和与浅层边权总和的对数比：\(DDB = \log(\sum_{deep}/\sum_{shallow})\)
- 三个变体：DDB_global（全局）、DDB_deep（深到深连接）、DDB_out（到输出节点）
- 设计动机：深层编码更抽象、领域不变的语义表示，浅层捕获领域特异的伪相关特征。τ=0.3表现最佳
Circuit Shift Score (CSS) — 部署后指标:
- 功能：测量OOD数据下电路相对于ID基线的偏移程度，预测性能退化
- 核心思路：发现部署后电路的层间拓扑结构保持稳定，但边的重连（rewiring）随分布偏移增加。定义 \(CSS = d(\mathcal{R}(c_{ID}), \mathcal{R}(c_{OOD}))\)，支持向量化（cosine/ℓ2/SRCC距离）和图结构化（Laplacian/NetLSD/Jaccard）两类表示
- 设计动机：部署后对比的是同一模型在不同数据上的电路，层间拓扑不再提供一致信号（CCA在不同数据集上得到矛盾的泛化基序），因此需要度量细粒度重连模式。CSS(v,SRCC)表现最佳，说明边权的相对排序变化比绝对幅度更可靠

损失函数 / 训练策略¶

本方法不涉及训练。CSS的阈值校准使用CIFAR10-C的39种损坏域作为代理数据来模拟分布偏移，找到与性能阈值δ最接近的损坏域对应的CSS值作为报警阈值δ'。

实验关键数据¶

主实验 — 部署前模型选择¶

数据集	指标	DDB_out (本文)	最佳基线	提升
PACS (风格偏移)	R²/SRCC/KRCC	0.862/0.897/0.731	0.765/0.878/0.720 (ID Acc)	+13%
Camelyon17 (机构偏移)	R²/SRCC/KRCC	0.748/0.820/0.646	0.588/0.802/0.628 (ATC)	+22%
Terra Incognita (地理偏移)	R²/SRCC/KRCC	0.714/0.838/0.642	0.684/0.813/0.613 (DDB_global)	+5%
平均	综合分	0.766±0.029	0.632±0.047 (ID Acc)	+13.4%

主实验 — 部署后性能监控¶

数据集	指标	CSS(v,SRCC) (本文)	最佳基线	提升
PACS	R²/SRCC/KRCC	0.912/0.983/0.944	0.645/0.617/0.444 (ATC)	+78%
FMoW	R²/SRCC/KRCC	0.723/0.750/0.722	0.428/0.717/0.611 (MDE)	+29%
Camelyon17	R²/SRCC/KRCC	0.519/0.807/0.608	0.036/0.273/0.187 (MDE)	+187%
ImageNet	R²/SRCC/KRCC	0.953/0.961/0.855	0.942/0.957/0.861 (ATC)	+1%
平均	综合分	0.811±0.041	0.470±0.095 (ATC)	+34.1%

消融实验¶

配置	R²	SRCC	KRCC	说明
τ=0.1	0.744	0.743	0.562	浅/深分界太窄
τ=0.2	0.772	0.843	0.653	次优
τ=0.3	0.798	0.862	0.684	最佳
τ=0.4	0.801	0.849	0.671	接近最佳
τ=0.5	0.772	0.838	0.673	一半分界

关键发现¶

DDB与OOD准确率的训练动态高度对齐：泛化好的模型DDB从2.6增长到4.1，泛化差的模型DDB停滞在-0.9
向量化CSS显著优于图结构化CSS，说明细粒度边权模式比粗粒度拓扑相似度更具信息量
不同数据集呈现不同的电路偏移模式：FMoW表现为广泛的跨层变化，Camelyon17集中在深层变化
CSS报警F1在临床可接受性能范围(0.8-0.9)上比最佳基线提升约45%

亮点与洞察¶

开创性地将机制可解释性从"事后解释"转向"预测性指标"，为模型评估提供了全新范式
"通用泛化基序"揭示了一个直觉一致的规律：泛化好的模型更依赖深层抽象特征，泛化差的模型依赖浅层表面特征
CSS不需要标签即可检测"静默失败"，在医疗等高风险场景有重要实用价值
电路发现从语言模型迁移到视觉模型，验证了视觉Transformer的电路存在可解释的泛化模式

局限与展望¶

电路发现的计算成本较高，限制了部署后实时监控的实用性
仅在ViT架构上验证，CNN或混合架构的适用性未知
模型动物园（model zoo）的构建（72-144个ViT）成本高，实际场景中可能没有这么多候选模型
阈值校准策略依赖人工构建的损坏数据集，在真实分布偏移下的鲁棒性需进一步验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将电路发现用于泛化预测，范式创新
实验充分度: ⭐⭐⭐⭐ 三个部署前+四个部署后数据集，多种基线对比，消融充分
写作质量: ⭐⭐⭐⭐ 问题定义清晰，两个场景分开阐述自成体系
价值: ⭐⭐⭐⭐ 对模型评估和监控有实际指导意义，但计算成本限制了应用