A Unified Interpretation of Training-Time Out-of-Distribution Detection¶

会议: ICCV 2025
arXiv: N/A (CVF OpenAccess)
代码: 无
领域: 3d_vision / OOD 检测理论
关键词: OOD 检测, 交互复杂度, 训练时方法, 高阶交互, 可解释性

一句话总结¶

从输入变量间"交互"的新视角出发，统一解释了不同训练时 OOD 检测方法为何有效——它们都促使模型编码更多高阶交互，并进一步验证了高阶交互在 OOD 检测中的主导作用，以及 near-OOD 样本难以检测的交互分布原因。

研究背景与动机¶

为什么需要统一理解？ 现有训练时 OOD 检测方法（LogitNorm、T2FNorm、CSI、DAL 等）基于不同的直觉设计：有的做 logit 归一化，有的做特征归一化，有的加分布偏移的数据增强。虽然它们都有效，但没有人解释过这些设计截然不同的方法是否共享某种底层机制。理解这一共性机制对于设计更好的 OOD 检测方法至关重要。

为什么选择"交互"视角？ Ren et al. 之前的理论工作证明了：DNN 的输出可以忠实地分解为输入变量之间不同子集 \(S\) 的交互效应之和 \(v(x) = \sum_S I(S|x)\)。这个分解具有稀疏性（只有少数交互显著）、通用匹配性（可匹配所有 \(2^n\) 个掩码样本的输出）和泛化性（同类样本的交互模式相似）。这些数学保证使交互成为解释 DNN 推理逻辑的可靠工具。

为什么 near-OOD 更难检测？ 这是一个重要但几乎未被探索的问题。虽然领域偏移的说法很直觉，但缺乏严格的量化解释。

方法详解¶

整体框架¶

本文的技术贡献可分为三个层次： 1. 统一解释：发现所有训练时方法都编码更多高阶交互 2. 因果验证：设计损失函数强制模型学习特定阶交互，验证高阶交互的主导作用 3. Near-OOD 解释：用交互分布相似度解释 near-OOD 难以检测的原因

关键设计¶

交互的数学定义¶

给定 DNN \(v: \mathbb{R}^n \to \mathbb{R}\)，输入样本 \(x\) 有 \(n\) 个变量，网络输出设为 ground-truth 类别的 logit：

\[v(x) = \log \frac{p(y=y_{truth}|x)}{1 - p(y=y_{truth}|x)}\]

变量子集 \(S \subseteq N\) 的交互效应通过 Harsanyi Dividend 定义：

\[I(S|x) = \sum_{T \subseteq S} (-1)^{|S|-|T|} v(x_T)\]

其中 \(x_T\) 是将 \(N \setminus T\) 中变量掩码为基线值后的样本。交互的阶（复杂度）定义为 \(|S|\)。

直觉理解：低阶交互编码简单特征（如蓝天背景的小块），ID 和 OOD 样本中都常见，区分力弱。高阶交互编码复杂的 AND 关系（必须所有变量同时出现才激活），具有更强的判别力。

统一理解训练时 OOD 检测方法¶

对比增强模型 \(v_{enhance}\)（使用 OOD 检测方法训练）和基线模型 \(v_{baseline}\)（仅用交叉熵训练）的 \(m\) 阶交互强度差异：

\[\Delta R^{(m)} = R^{(m)}_{enhance} - R^{(m)}_{baseline}\]

其中相对交互强度 \(R^{(m)}\) 衡量的是 \(m\) 阶交互占总交互强度的比例。

关键发现：对于所有测试的增强方法（CSI、LogitNorm、T2FNorm、DAL），在所有测试架构（ResNet-18、ResNet-34、WideResNet-40-2）上，一致观察到 \(\Delta R^{(m)} > 0\) 当 \(m > 0.75n\)，\(\Delta R^{(m)} < 0\) 当 \(m < 0.25n\)。即增强模型一致地编码更多高阶交互、更少低阶交互。

验证高阶交互的主导作用¶

为什么不直接去掉高阶交互看效果？ 直接移除不可行，作者设计了一个巧妙的替代方案——通过损失函数间接控制模型编码的交互阶数。

基于定理 2，网络输出的变化 \(\Delta v^{(m_1, m_2)}\) 主要编码 \([0, m_2 n]\) 阶交互。由此设计惩罚损失：

\[L^{(m_1, m_2)}_{inter} = -\mathbb{E}_x \left[ \sum_{c=1}^C p(\hat{y}=c | \Delta v^{(m_1, m_2)}_c(x)) \log p(\hat{y}=c | \Delta v^{(m_1, m_2)}_c(x)) \right]\]

总损失为：\(L = L_{ce} - \alpha L^{(m_1, m_2)}_{inter}\)

设置 \([m_1=0.7, m_2=1.0]\) 可惩罚高阶交互，得到"低阶模型"；设置 \([m_1=0, m_2=0.3]\) 可惩罚低阶交互，得到"高阶模型"。

Near-OOD 的交互分布解释¶

用 Jaccard 相似度比较 ID 与 near-OOD/far-OOD 样本的交互分布：

\[SIM_{near} = \frac{\| \min(\tilde{I}_{ID}(v), \tilde{I}_{near\text{-}OOD}(v)) \|_1}{\| \max(\tilde{I}_{ID}(v), \tilde{I}_{near\text{-}OOD}(v)) \|_1}\]

损失函数 / 训练策略¶

训练策略本身并非本文核心贡献，而是利用上述损失函数进行分析性实验。具体训练了三类模型： - 基线模型：仅用 \(L_{ce}\)（\(\alpha = 0\)） - 低阶模型：\([m_1=0.7, m_2=1.0]\)，\(\alpha = 0.1\) - 高阶模型：\([m_1=0, m_2=0.3]\)，\(\alpha = 0.1\)

实验关键数据¶

主实验¶

高阶交互对 OOD 检测的影响（Table 1，4个 OOD 数据集平均）：

ID 数据集	模型类型	ResNet-18 FPR95↓	ResNet-18 AUROC↑	ResNet-34 FPR95↓	ResNet-34 AUROC↑	WRN-40-2 FPR95↓	WRN-40-2 AUROC↑
CIFAR-10	Baseline	62.03	88.48	50.09	89.12	56.99	89.02
CIFAR-10	Low-order	91.45 (+29.4)	73.07 (-15.4)	88.63 (+38.5)	69.29 (-19.8)	85.13 (+28.1)	70.16 (-18.9)
CIFAR-10	High-order	53.05 (-9.0)	89.53 (+1.1)	51.32 (+1.2)	88.97 (-0.2)	61.64 (+4.7)	86.63 (-2.4)
CIFAR-100	Baseline	79.70	78.15	78.95	78.30	78.01	76.90
CIFAR-100	Low-order	92.69 (+13.0)	51.52 (-26.6)	89.98 (+11.0)	58.77 (-19.5)	90.33 (+12.3)	54.46 (-22.4)
CIFAR-100	High-order	75.82 (-3.9)	79.45 (+1.3)	81.51 (+2.6)	77.28 (-1.0)	82.51 (+4.5)	73.92 (-3.0)

核心结论：低阶模型的 OOD 检测性能灾难性下降（FPR95 增加 13-38 点），而高阶模型仅轻微下降甚至略有提升。这强有力地证明了高阶交互在 OOD 检测中的主导作用。

消融实验¶

交互分布相似度分析（Figure 5）：

比较对象	相似度范围	结论
\(SIM_{near}\)（near-OOD vs ID）	0.4-0.8	相似度较高
\(SIM_{far}\)（far-OOD vs ID）	0.0-0.2	相似度很低
\(SIM_{near,enhance}\)	< \(SIM_{near}\)	增强方法降低了相似度
\(SIM_{far,enhance}\)	< \(SIM_{far}\)	增强方法降低了相似度

在 ResNet-18/34/WRN-40-2 三种架构、CIFAR-10/100 两种 ID 数据集、以及 CSI/LogitNorm/T2FNorm/DAL 四种增强方法上，结论完全一致。

关键发现¶

不同训练时方法共享同一机制：虽然设计动机不同，但都促使模型编码更多高阶交互
高阶交互是 OOD 检测的核心因素：移除高阶交互导致性能灾难性下降
Near-OOD 难检测的本质原因：其交互分布与 ID 样本更相似
增强方法可降低交互分布相似度：解释了它们为何能改善 near-OOD 检测

亮点与洞察¶

从"correlation"到"causation"：不仅观察到高阶交互与 OOD 性能的关联，还通过设计损失函数进行因果验证
理论基础扎实：基于 Harsanyi Dividend 和已证明的交互稀疏性/通用匹配性定理
跨方法、跨架构、跨数据集的一致性：4 种方法 × 3 种架构 × 5 个数据集 = 60 组实验的一致结论增强可信度
实用启示：未来设计 OOD 检测方法时，可以直接以"增加高阶交互"为目标

局限与展望¶

仅在 ResNet 系列架构上验证，未覆盖 ViT 等现代架构
仅关注训练时方法，未涉及后处理 OOD 检测方法（MSP、ODIN 等）
交互计算成本较高（指数级子集枚举），实际应用受限
高阶模型的 OOD 性能提升有限，说明仅增加高阶交互不足以大幅改善
未深入讨论"为什么训练时方法会编码更多高阶交互"的底层原因

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐