FaCT: Faithful Concept Traces for Explaining Neural Network Decisions¶

会议: NeurIPS 2025
arXiv: 2510.25512
代码: https://github.com/m-parchami/FaCT
领域: 可解释性 / 概念解释
关键词: 概念解释, 忠实归因, B-cos 网络, 稀疏自编码器, 可解释模型

一句话总结¶

提出 FaCT，一种结合 B-cos 变换和稀疏自编码器 (SAE) 的内在可解释模型，能够忠实地将模型预测分解为概念贡献（Logit = \(\sum\) 概念贡献），并将每个概念忠实地可视化到输入像素级别（概念激活 = \(\sum\) 像素贡献），同时提出基于 DINOv2 的 C²-score 用于评估概念一致性。

研究背景与动机¶

领域现状：深度网络在各种任务上表现优异，但理解其内部工作机制仍然困难。归因方法（如 Grad-CAM）只能显示输入中哪些像素重要，无法解释模型使用了哪些高层概念。

现有概念解释方法： - Part-Prototype 网络和概念瓶颈模型 (CBM)：尝试创建内在可解释模型，但特征提取器本身仍不可解释，概念的 grounding 可能不忠实于模型。 - CRAFT 等 post-hoc 方法：通过 NMF 分解模型激活为概念，但概念并非直接用于预测，需要依赖近似方法估计概念重要性和可视化，不一定忠实。

现有方法的限制性假设： - 概念是类别特定的（class-specific），无法看到跨类共享的概念 - 假设概念只对应小的图像 patch 或物体部件 - 概念来自预定义集合

核心矛盾：现有方法在概念提取和归因环节引入近似，导致解释不忠实（unfaithful）。而且评估概念一致性的指标依赖人工标注的部件 mask，覆盖不全且假设每个概念都对应标注部件。

核心问题¶

如何设计一个模型，使其提供的概念解释在设计上就忠实于模型决策——即概念对输出的贡献是精确可计算的（加和等于 logit），概念在输入空间的可视化也是精确的（加和等于概念激活值），而非依赖近似？

方法详解¶

整体架构¶

FaCT 由两个核心组件构成：

B-cos 变换层：替代常规 ReLU 层，实现动态线性（dynamic-linear）变换
无偏置稀疏自编码器 (Bias-free SAE)：在中间层提取稀疏概念表示

B-cos 变换¶

常规 ReLU 层：\(f^{\text{Standard}}(x) = \text{ReLU}(\mathbf{W}x + \mathbf{b})\)

B-cos 变换去掉偏置，使用行归一化权重 \(\hat{\mathbf{W}}\) 和余弦非线性：

\[f^{\text{B-cos}}(x; B) = (\hat{\mathbf{W}} x) \odot |c(\hat{\mathbf{W}}; x)|^{B-1} = \tilde{\mathbf{W}}(x) x\]

关键性质：一系列 B-cos 变换可以化简为输入的动态线性变换：

\[f_{1 \to n}^{\text{B-cos}}(x) = \tilde{\mathbf{W}}_{1 \to n}(x) \cdot x\]

这意味着对于任意输入 \(x\)，模型可以产生一个忠实地再现 logit 的解释 \(\tilde{\mathbf{W}}_{1 \to n}(x)\)。

无偏置稀疏自编码器¶

在中间层 \(l\) 处，特征 \(F = f_{1 \to l}(I)\)，SAE 将其编码为稀疏概念激活张量：

\[\mathbf{U} = \text{Encoder}(F) = \text{ReLU}(\text{conv}(\mathbf{W}, F))\]

\[\breve{F} = \text{conv}(\mathbf{V}, \mathbf{U})\]

模型使用重建特征 \(\breve{F}\) 计算最终 logit：

\[L^{\text{FaCT}} = f_{l \to n}(\breve{F})\]

关键设计：SAE 不含偏置，使得编码过程也是动态线性的，保证了从概念到输入的忠实归因。

忠实概念贡献（Logit 分解）¶

由于 \(f_{l \to n}\) 由 B-cos 层组成，logit 可以精确分解为每个概念的贡献：

\[L_c^{\text{FaCT}} = \sum_{k}^{K} \text{Contribution}_k^c\]

其中 \(\text{Contribution}_k^c = \sum_{i,j}^{H,W} \tilde{\mathbf{W}}(\mathbf{U})_{i,j,k} \cdot \mathbf{U}_{i,j,k}\)。

这是精确等式而非近似：所有概念贡献之和等于 logit 值。这与 CRAFT/VCC 等方法形成鲜明对比——后者概念不直接参与计算 logit，需要 post-hoc 的近似重要性度量。

忠实输入级可视化¶

同理，每个概念的激活值可以精确表示为输入像素的动态线性组合：

\[\text{Concept Activation}_k = \sum_{i,j,c}^{H_0,W_0,3} [\tilde{\mathbf{W}}(I) \cdot I]_{i,j,c}\]

每个概念都可以在输入空间获得像素级精确的可视化，而非近似的裁剪或上采样热力图。

C²-score：概念一致性评估指标¶

现有评估方法依赖人工标注的部件 mask（如 PartImageNet），但存在三个问题：(1) 只覆盖少数类别，(2) 不支持跨类共享的概念，(3) 标注粒度与模型学到的概念不匹配。

FaCT 提出 C²-score： 1. 使用 DINOv2 + LoftUp 提取每张图的高分辨率特征 2. 对每个概念 \(k\) 和图像 \(I\)，用概念归因加权 DINOv2 特征得到概念嵌入 \(\mathcal{E}^k(I)\) 3. 计算加权余弦相似度衡量一致性：

\[\text{Consistency}^k = \sum_{(I,J) \in \mathcal{D}^2, I \neq J} S^{k,I} S^{k,J} \cos(\mathcal{E}^k(I), \mathcal{E}^k(J))\]

减去随机基线消除偏差：\(\text{C}^2\text{-score} = \frac{1}{K}\sum_K \text{Consistency}^k - \text{Consistency}^{rand}\)

C²-score 的优势：类无关（class-agnostic）、无需人工标注、考虑归因空间分布、同时支持共享和类特定概念集。

实验关键数据¶

实验设置¶

数据集：ImageNet
架构：B-cos ResNet-50、B-cos DenseNet-121、B-cos ViT c-S
SAE 配置：TopK ∈ {8, 16, 32}，总概念数 \(K\) ∈ {8192, 16384}
在多个层（早期/中期/晚期）训练 SAE

性能保持¶

ImageNet 精度下降 < 3%，同时概念一致性大幅提升
DenseNet Block 3/4 的 C²-score 从 0.11 提升到 0.39

概念一致性（C²-score 比较）¶

方法	C²-score
B-cos channels	0.09
CRP	- (低于 FaCT)
CRAFT	- (低于 FaCT)
FaCT	0.37

FaCT 的概念一致性显著优于所有基线方法。

概念删除实验¶

按贡献度从高到低删除概念，FaCT 的 Eq. 9（忠实贡献）导致的 logit 和准确率下降远比 Saliency、Sobol 等 post-hoc 方法陡峭
特别是在早期层 Block 2/4，删除少量概念即导致准确率急剧下降，验证了忠实贡献的有效性

用户研究（38 名参与者）¶

FaCT 概念可解释性评分远高于 B-cos 通道基线（早期和晚期层均如此）
输入级可视化显著提升可解释性，尤其对早期层概念平均提升约 0.5/5 分
C²-score 与用户评分的 Spearman 相关性：全部 38 名参与者均为正相关，33/38 为中等以上相关（> 0.4）

亮点¶

设计上忠实（Faithful by design）：概念贡献精确加和等于 logit，概念可视化精确加和等于激活值——不是近似，是数学上的等式
跨类共享概念：概念在所有类别间共享（如"轮子"概念出现在校车和自行车类别中），提供了统一的概念基础，有助于理解误分类
跨层概念层次：可在不同层提取概念，形成从底层纹理到高层语义的层次结构
概念多样性：不假设固定空间大小，概念从小局部（头盔）到大范围（木纹理）都有覆盖
C²-score 评估指标：利用基础模型的通用特征评估概念一致性，避免了对人工标注的依赖
误分类分析：共享概念基础使得可以分析误分类原因——如篮球被误分类为排球时，可以看到"球"、"球衣"等共同概念的贡献

局限与展望¶

依赖 B-cos 架构：需要使用 B-cos 变换替代标准层，不能直接应用于任意现有模型
精度下降：虽然 < 3%，但在某些场景下可能不可接受
概念数量大：\(K\) 为 8192 或 16384，浏览和理解所有概念对用户来说有负担
SAE 训练的不稳定性：存在"死亡"概念（从不激活）和"始终活跃"概念（> 60% 数据上激活）的问题
概念没有文本标签：虽然可以用 CLIP-Dissect 辅助命名，但不是方法本身的一部分
仅在 ImageNet 上充分评估：附录有 CUB 结果，但缺少更多领域（医疗、遥感等）的验证

与相关工作的对比¶

方法	概念忠实性	输入可视化	共享概念	评估方式
CRAFT	近似（NMF）	近似（上采样）	❌ 类特定	标注 IoU
CRP	近似	近似	✅	标注 IoU
Part-Prototype	不忠实	Patch 相似度	❌	标注 IoU
CBM	不忠实	无	❌	预定义集合
FaCT	精确等式	像素级精确	✅ 共享	C²-score

启发与关联¶

SAE + 可解释架构的组合范式：将 SAE（最初用于理解 LLM 的特征）与 B-cos 可解释架构结合，是一个值得推广的研究方向——未来可能扩展到视频、3D 等模态
忠实性 vs. 近似性的权衡：本文清晰地展示了"设计上忠实"和"post-hoc 近似"之间的差距，对可解释 AI 领域有方法论意义
基础模型作为评估工具：用 DINOv2 特征替代人工标注来评估概念一致性，这一思路可以推广到其他评估任务

评分¶

新颖性: ⭐⭐⭐⭐ (B-cos + SAE 的组合新颖，C²-score 是有价值的贡献)
实验充分度: ⭐⭐⭐⭐⭐ (多架构、多层、用户研究、消融实验、概念删除、误分类分析)
写作质量: ⭐⭐⭐⭐⭐ (结构清晰，数学推导严谨，可视化优秀)
价值: ⭐⭐⭐⭐ (对可解释 AI 领域有实质推进，但 B-cos 依赖限制了通用性)