Digging Deeper: Learning Multi-Level Concept Hierarchies¶

会议: ICLR 2026 Workshop on Principled Design for Trustworthy AI
arXiv: 2603.10084
代码: 无
领域: 可解释AI / 概念模型
关键词: 多层概念层次, 概念嵌入模型, 概念分裂, 子概念发现, 测试时干预

一句话总结¶

本文提出 Multi-Level Concept Splitting（MLCS）将概念分裂过程从单层递归扩展到多层，仅用顶层概念标注就能自动发现任意深度的概念层级树，并设计 Deep-HiCEMs 架构来表示和利用这些深层层级，实现多粒度的测试时概念干预。

研究背景与动机¶

领域现状：基于概念的可解释模型（Concept-based Models）是当前可解释 AI 的核心方向之一。Concept Bottleneck Models（CBMs）和 Concept Embedding Models（CEMs）通过强制模型先预测人类可理解的中间概念，再从概念预测最终任务标签，从而提供结构化的解释路径。CEMs 特别引入了概念嵌入空间的设计，允许每个概念用高维向量表示而非简单的二值预测，在保持可解释性的同时提升了准确率。

现有痛点：标准的 CBMs 和 CEMs 有两个关键问题—— (1) 它们将概念视为"扁平且独立"的实体，完全忽视概念之间的层次关系。比如"翅膀颜色"和"飞行能力"在语义上有因果关联，但模型将它们视为互不相关的维度。 (2) 如果想获得细粒度的概念解释，就必须在训练时提供详尽的多粒度标注（如不仅标注"有翅膀"，还要标注"翅膀是条纹的"、"翅膀是尖形的"等），标注成本极高。

核心矛盾：同组先前工作 HiCEMs（ICLR 2026 主会论文）已经解决了第一个问题——用层次结构显式建模概念关系，并提出 Concept Splitting 从预训练 CEM 的嵌入空间中自动发现子概念，无需额外标注。但 HiCEMs 和 Concept Splitting 都被限制在浅层层次（即只能从父概念分裂出一层子概念），无法捕获现实中更深的多层概念树。例如"动物 → 鸟类 → 水鸟 → 鹈鹕"这样的四层结构是无法被表达的。

本文目标 两个子问题： (1) 如何将单层 Concept Splitting 扩展为可递归的多层版本，从顶层标注自动构建深层概念树？ (2) 如何设计模型架构来表示和利用多层概念层级，并支持在任意抽象层次上进行概念干预？

切入角度：作者观察到，Concept Splitting 的本质是在 CEM 的概念嵌入空间中做聚类。如果一个概念的嵌入向量在不同样本上呈现多个自然簇结构，那么每个簇就对应一个有意义的子概念。这个操作可以递归：子概念的嵌入空间中同样可能存在进一步可分的簇结构。

核心 idea：递归地在概念嵌入空间中执行分裂操作，构建多层概念树（MLCS），然后用 Deep-HiCEMs 架构表示和利用这些深层层级。

方法详解¶

整体框架¶

整个方法建立在 CEM（Concept Embedding Models）之上。输入图像 \(x\) 先经过共享的 backbone（如 ResNet）提取特征，然后通过概念编码器将特征映射到概念嵌入空间，每个概念 \(c_i\) 对应一个高维嵌入向量 \(\mathbf{e}_i\)——这个嵌入不仅编码概念的存在与否，还编码了概念的细粒度属性信息。最后，任务预测器从概念嵌入生成分类结果。MLCS 和 Deep-HiCEMs 在这个基础上增加了两步操作：(1) 后处理阶段用 MLCS 递归发现多层子概念；(2) 用 Deep-HiCEMs 架构将这些层级结构编码到模型中，使其在推理时支持多粒度干预。

关键设计¶

Multi-Level Concept Splitting (MLCS):
- 功能：从预训练 CEM 的嵌入空间中递归发现多层概念层级，无需任何额外标注
- 核心思路：给定父概念 \(c\) 的嵌入向量集合 \(\{\mathbf{e}_c^{(1)}, \mathbf{e}_c^{(2)}, \ldots\}\)（来自不同训练样本），MLCS 在该高维空间中执行聚类分析（如 k-means 或高斯混合模型），识别自然形成的簇。每个簇被定义为一个子概念 \(c_{i}\)。然后对每个子概念重复上述过程：收集属于该子概念的样本嵌入，再次聚类分裂。递归持续进行，直到某层的子概念嵌入不再呈现有意义的多簇结构（通过分裂质量评估准则判断）。最终输出是一棵概念层级树，不同概念的树深度可以不同。整个过程的关键约束是：所有分裂操作都在同一个预训练 CEM 的嵌入空间中完成，不需要重新训练模型或收集新标注。
- 设计动机：单层 Concept Splitting 只能从父概念分裂出直接子概念，遗漏了更深层次的语义结构。MLCS 的递归设计使得系统能够自动捕获任意深度的概念层级，且不同概念可以有不均匀的深度——简单概念可能只有一层子概念，复杂概念可能有三四层。
Deep-HiCEMs 架构:
- 功能：在模型中显式表示和利用 MLCS 发现的多层概念层级，支持多粒度推理和干预
- 核心思路：相比原始 HiCEMs 只支持两层（父概念 + 子概念），Deep-HiCEMs 扩展为可以表示任意层数的概念层级。架构中每一层概念都有独立的嵌入表示和预测头。各层之间通过父-子约束进行关联：子概念的预测必须与其父概念保持一致（如果父概念"有翅膀"为假，那么子概念"翅膀是条纹的"也必须为假）。任务预测器可以利用所有层的概念嵌入来做最终分类，从而同时利用粗粒度和细粒度信息。
- 设计动机：浅层 HiCEMs 在干预时只能在一个粒度上操作。Deep-HiCEMs 允许用户根据自己对领域的理解水平选择合适的粒度层次进行干预——领域专家可以在非常细的子概念上干预（如"翅膀羽毛的条纹密度"），而普通用户可以在较粗的层次上干预（如"有翅膀"）。
自适应分裂终止机制:
- 功能：自动确定每个概念的层级深度，无需人工指定
- 核心思路：在递归分裂的每一步，系统评估分裂的质量。评估指标包括子概念簇的可分离性（如 silhouette score）和语义一致性（子概念是否对应有意义的视觉属性）。当分裂质量低于阈值时停止。这意味着不同概念的层级树深度可以不同，反映了不同概念本身的语义复杂度。
- 设计动机：强制所有概念有相同的层级深度不合理——"颜色"可能只需分成"暖色/冷色"两个子概念，而"形状"可能需要分到"几何形状→多边形→正多边形→正六边形"四层。自适应机制让概念树结构与数据本身的语义结构相匹配。

损失函数 / 训练策略¶

训练流程分为两个独立阶段。阶段一：正常训练一个标准 CEM，使用概念预测损失（二元交叉熵）和任务预测损失（交叉熵）的加权和，得到高质量的概念嵌入空间。阶段二：冻结 CEM 的参数，在其嵌入空间上执行 MLCS 递归分裂，得到多层概念树；然后使用这些层级结构训练 Deep-HiCEMs，训练目标包括：(1) 各层概念预测的准确性；(2) 最终任务预测的准确性；(3) 层级一致性约束——确保子概念激活与父概念激活逻辑一致。

实验关键数据¶

主实验：Deep-HiCEMs vs 标准 CEM 及 HiCEMs¶

模型	概念层级深度	任务准确率	概念可解释性	干预支持粒度
标准 CEM	无层级（扁平）	基线准确率	单层概念解释	单粒度干预
HiCEMs（单层分裂）	2 层	≈ CEM 准确率	父+子两级解释	两级干预
Deep-HiCEMs（MLCS）	多层（≥3 层）	保持高准确率	多级细粒度解释	任意粒度干预
Sparse Autoencoder	无层级	取决于稀疏度	稀疏激活解释	不支持干预

干预效果对比¶

干预策略	干预粒度	任务准确率提升	说明
无干预	—	基线	模型原始预测
顶层概念干预	粗粒度	适度提升	修正父概念（如"有翅膀"）
单层子概念干预	中粒度	较好提升	修正第一层子概念
多层深度干预（MLCS）	细粒度	最大提升	在最相关的细粒度层级修正
随机层级干预	混合	不稳定	说明粒度选择影响干预效果

关键发现¶

MLCS 发现的子概念是人类可理解的：通过人类评估实验验证，自动发现的多层子概念可以被人类评估者赋予有意义的语义标签。例如，从"翅膀颜色"概念自动分裂出"暗色翅膀"和"亮色翅膀"子概念，进一步从"暗色翅膀"分裂出"黑色"和"深棕色"。
Deep-HiCEMs 保持高任务准确率：增加概念层级深度不会显著牺牲预测性能，证明了层级结构是对原始表示能力的补充而非替代。
多层干预优于单层干预：在测试时，于更精细的概念层级进行干预比粗粒度干预更有针对性。这是因为细粒度子概念对应的语义更精确，修正一个细粒度概念的影响范围更小、更可控。
不同数据集呈现不同的自然层级深度：CUB（鸟类细粒度分类）数据集上的概念树普遍比 MNIST-ADD（数字加法）更深，反映了鸟类视觉属性的语义复杂度更高。
与 Sparse Autoencoder 方法的关联：论文还将概念分裂与稀疏自编码器（Sparse Autoencoder）进行类比——两者都试图发现更细粒度的特征，但概念分裂保持了树状层级结构，而 SAE 生成的是扁平的稀疏特征集合。

亮点与洞察¶

零额外标注的深层概念发现：这是本文最核心的贡献。将 Concept Splitting 从单层推广到递归多层，整个过程完全不需要额外标注——所有子概念都是从 CEM 的嵌入空间中"挖掘"出来的。这个设计之所以巧妙，是因为它利用了训练好的 CEM 嵌入空间本身就包含了丰富的语义结构这一事实，只需要恰当的聚类算法就能把这些潜在结构显式化。
多粒度干预的实用价值：传统 CBMs 的概念干预是"一刀切"的——所有概念在同一粒度。Deep-HiCEMs 允许用户根据自己的专业水平和具体场景选择合适的干预粒度，这在实际部署中非常有价值。比如在医学影像领域，放射科专家可以在非常细的子概念（如"结节边缘毛糙程度"）上干预，而普通医生可以在粗概念（如"有结节"）上干预。
概念层级与 SAE 的桥接：论文将 Concept Splitting 和 Sparse Autoencoder 联系起来，暗示可解释 AI 中的"特征分解"和"概念层级"可能是同一问题的不同视角。这为两个社区的方法融合提供了思路。

局限与展望¶

Workshop 论文的实验规模有限：作为 4-6 页的 workshop 论文，实验主要在小规模数据集（MNIST-ADD、CUB 等）上进行，缺少 ImageNet 级别的大规模验证，难以评估方法在真实复杂场景下的可扩展性。
分裂质量依赖基础 CEM 的嵌入质量：如果初始 CEM 的概念嵌入空间质量不高（比如概念间严重纠缠），MLCS 的递归分裂可能产生无意义的子概念。作为后处理方法，其上限受限于基础模型。
计算开销随深度增长：递归分裂的每一层都需要对所有样本的嵌入执行聚类，层数越多计算成本越高。对于大规模数据集和很深的层级树，这可能成为瓶颈。
缺少层级结构的跨任务迁移：当前方法为每个任务独立发现概念层级，未探讨已发现的层级是否可以迁移到相关但不同的任务。
与基于注意力的可解释方法缺乏对比：论文主要在 concept-based model 体系内比较，缺少与 attention mechanism、Grad-CAM、SHAP 等主流可解释方法的系统对比。

评分¶

新颖性: ⭐⭐⭐⭐ 核心 idea（递归多层分裂）是 HiCEMs 的自然且重要扩展，增量但有价值
实验充分度: ⭐⭐⭐ Workshop 论文篇幅限制，实验规模偏小，缺少定量消融和大规模验证
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述紧凑，与主会论文 HiCEMs 的关系交代得当
价值: ⭐⭐⭐⭐ 多层概念层级是概念模型从"可用"到"好用"的关键一步，面向实际部署场景有意义