Digging Deeper: Learning Multi-Level Concept Hierarchies¶
会议: ICLR 2026 Workshop on Principled Design for Trustworthy AI
arXiv: 2603.10084
代码: 无
领域: 可解释AI / 概念模型
关键词: 多层概念层次, 概念嵌入模型, 概念分裂, 子概念发现, 测试时干预
一句话总结¶
本文提出 Multi-Level Concept Splitting(MLCS)将概念分裂过程从单层递归扩展到多层,仅用顶层概念标注就能自动发现任意深度的概念层级树,并设计 Deep-HiCEMs 架构来表示和利用这些深层层级,实现多粒度的测试时概念干预。
研究背景与动机¶
领域现状:基于概念的可解释模型(Concept-based Models)是当前可解释 AI 的核心方向之一。Concept Bottleneck Models(CBMs)和 Concept Embedding Models(CEMs)通过强制模型先预测人类可理解的中间概念,再从概念预测最终任务标签,从而提供结构化的解释路径。CEMs 特别引入了概念嵌入空间的设计,允许每个概念用高维向量表示而非简单的二值预测,在保持可解释性的同时提升了准确率。
现有痛点:标准的 CBMs 和 CEMs 有两个关键问题—— (1) 它们将概念视为"扁平且独立"的实体,完全忽视概念之间的层次关系。比如"翅膀颜色"和"飞行能力"在语义上有因果关联,但模型将它们视为互不相关的维度。 (2) 如果想获得细粒度的概念解释,就必须在训练时提供详尽的多粒度标注(如不仅标注"有翅膀",还要标注"翅膀是条纹的"、"翅膀是尖形的"等),标注成本极高。
核心矛盾:同组先前工作 HiCEMs(ICLR 2026 主会论文)已经解决了第一个问题——用层次结构显式建模概念关系,并提出 Concept Splitting 从预训练 CEM 的嵌入空间中自动发现子概念,无需额外标注。但 HiCEMs 和 Concept Splitting 都被限制在浅层层次(即只能从父概念分裂出一层子概念),无法捕获现实中更深的多层概念树。例如"动物 → 鸟类 → 水鸟 → 鹈鹕"这样的四层结构是无法被表达的。
本文目标 两个子问题: (1) 如何将单层 Concept Splitting 扩展为可递归的多层版本,从顶层标注自动构建深层概念树? (2) 如何设计模型架构来表示和利用多层概念层级,并支持在任意抽象层次上进行概念干预?
切入角度:作者观察到,Concept Splitting 的本质是在 CEM 的概念嵌入空间中做聚类。如果一个概念的嵌入向量在不同样本上呈现多个自然簇结构,那么每个簇就对应一个有意义的子概念。这个操作可以递归:子概念的嵌入空间中同样可能存在进一步可分的簇结构。
核心 idea:递归地在概念嵌入空间中执行分裂操作,构建多层概念树(MLCS),然后用 Deep-HiCEMs 架构表示和利用这些深层层级。
方法详解¶
整体框架¶
整个方法建立在 CEM(Concept Embedding Models)之上。输入图像 \(x\) 先经过共享的 backbone(如 ResNet)提取特征,然后通过概念编码器将特征映射到概念嵌入空间,每个概念 \(c_i\) 对应一个高维嵌入向量 \(\mathbf{e}_i\)——这个嵌入不仅编码概念的存在与否,还编码了概念的细粒度属性信息。最后,任务预测器从概念嵌入生成分类结果。MLCS 和 Deep-HiCEMs 在这个基础上增加了两步操作:(1) 后处理阶段用 MLCS 递归发现多层子概念;(2) 用 Deep-HiCEMs 架构将这些层级结构编码到模型中,使其在推理时支持多粒度干预。
关键设计¶
-
Multi-Level Concept Splitting (MLCS):
- 功能:从预训练 CEM 的嵌入空间中递归发现多层概念层级,无需任何额外标注
- 核心思路:给定父概念 \(c\) 的嵌入向量集合 \(\{\mathbf{e}_c^{(1)}, \mathbf{e}_c^{(2)}, \ldots\}\)(来自不同训练样本),MLCS 在该高维空间中执行聚类分析(如 k-means 或高斯混合模型),识别自然形成的簇。每个簇被定义为一个子概念 \(c_{i}\)。然后对每个子概念重复上述过程:收集属于该子概念的样本嵌入,再次聚类分裂。递归持续进行,直到某层的子概念嵌入不再呈现有意义的多簇结构(通过分裂质量评估准则判断)。最终输出是一棵概念层级树,不同概念的树深度可以不同。整个过程的关键约束是:所有分裂操作都在同一个预训练 CEM 的嵌入空间中完成,不需要重新训练模型或收集新标注。
- 设计动机:单层 Concept Splitting 只能从父概念分裂出直接子概念,遗漏了更深层次的语义结构。MLCS 的递归设计使得系统能够自动捕获任意深度的概念层级,且不同概念可以有不均匀的深度——简单概念可能只有一层子概念,复杂概念可能有三四层。
-
Deep-HiCEMs 架构:
- 功能:在模型中显式表示和利用 MLCS 发现的多层概念层级,支持多粒度推理和干预
- 核心思路:相比原始 HiCEMs 只支持两层(父概念 + 子概念),Deep-HiCEMs 扩展为可以表示任意层数的概念层级。架构中每一层概念都有独立的嵌入表示和预测头。各层之间通过父-子约束进行关联:子概念的预测必须与其父概念保持一致(如果父概念"有翅膀"为假,那么子概念"翅膀是条纹的"也必须为假)。任务预测器可以利用所有层的概念嵌入来做最终分类,从而同时利用粗粒度和细粒度信息。
- 设计动机:浅层 HiCEMs 在干预时只能在一个粒度上操作。Deep-HiCEMs 允许用户根据自己对领域的理解水平选择合适的粒度层次进行干预——领域专家可以在非常细的子概念上干预(如"翅膀羽毛的条纹密度"),而普通用户可以在较粗的层次上干预(如"有翅膀")。
-
自适应分裂终止机制:
- 功能:自动确定每个概念的层级深度,无需人工指定
- 核心思路:在递归分裂的每一步,系统评估分裂的质量。评估指标包括子概念簇的可分离性(如 silhouette score)和语义一致性(子概念是否对应有意义的视觉属性)。当分裂质量低于阈值时停止。这意味着不同概念的层级树深度可以不同,反映了不同概念本身的语义复杂度。
- 设计动机:强制所有概念有相同的层级深度不合理——"颜色"可能只需分成"暖色/冷色"两个子概念,而"形状"可能需要分到"几何形状→多边形→正多边形→正六边形"四层。自适应机制让概念树结构与数据本身的语义结构相匹配。
损失函数 / 训练策略¶
训练流程分为两个独立阶段。阶段一:正常训练一个标准 CEM,使用概念预测损失(二元交叉熵)和任务预测损失(交叉熵)的加权和,得到高质量的概念嵌入空间。阶段二:冻结 CEM 的参数,在其嵌入空间上执行 MLCS 递归分裂,得到多层概念树;然后使用这些层级结构训练 Deep-HiCEMs,训练目标包括:(1) 各层概念预测的准确性;(2) 最终任务预测的准确性;(3) 层级一致性约束——确保子概念激活与父概念激活逻辑一致。
实验关键数据¶
主实验:Deep-HiCEMs vs 标准 CEM 及 HiCEMs¶
| 模型 | 概念层级深度 | 任务准确率 | 概念可解释性 | 干预支持粒度 |
|---|---|---|---|---|
| 标准 CEM | 无层级(扁平) | 基线准确率 | 单层概念解释 | 单粒度干预 |
| HiCEMs(单层分裂) | 2 层 | ≈ CEM 准确率 | 父+子两级解释 | 两级干预 |
| Deep-HiCEMs(MLCS) | 多层(≥3 层) | 保持高准确率 | 多级细粒度解释 | 任意粒度干预 |
| Sparse Autoencoder | 无层级 | 取决于稀疏度 | 稀疏激活解释 | 不支持干预 |
干预效果对比¶
| 干预策略 | 干预粒度 | 任务准确率提升 | 说明 |
|---|---|---|---|
| 无干预 | — | 基线 | 模型原始预测 |
| 顶层概念干预 | 粗粒度 | 适度提升 | 修正父概念(如"有翅膀") |
| 单层子概念干预 | 中粒度 | 较好提升 | 修正第一层子概念 |
| 多层深度干预(MLCS) | 细粒度 | 最大提升 | 在最相关的细粒度层级修正 |
| 随机层级干预 | 混合 | 不稳定 | 说明粒度选择影响干预效果 |
关键发现¶
- MLCS 发现的子概念是人类可理解的:通过人类评估实验验证,自动发现的多层子概念可以被人类评估者赋予有意义的语义标签。例如,从"翅膀颜色"概念自动分裂出"暗色翅膀"和"亮色翅膀"子概念,进一步从"暗色翅膀"分裂出"黑色"和"深棕色"。
- Deep-HiCEMs 保持高任务准确率:增加概念层级深度不会显著牺牲预测性能,证明了层级结构是对原始表示能力的补充而非替代。
- 多层干预优于单层干预:在测试时,于更精细的概念层级进行干预比粗粒度干预更有针对性。这是因为细粒度子概念对应的语义更精确,修正一个细粒度概念的影响范围更小、更可控。
- 不同数据集呈现不同的自然层级深度:CUB(鸟类细粒度分类)数据集上的概念树普遍比 MNIST-ADD(数字加法)更深,反映了鸟类视觉属性的语义复杂度更高。
- 与 Sparse Autoencoder 方法的关联:论文还将概念分裂与稀疏自编码器(Sparse Autoencoder)进行类比——两者都试图发现更细粒度的特征,但概念分裂保持了树状层级结构,而 SAE 生成的是扁平的稀疏特征集合。
亮点与洞察¶
- 零额外标注的深层概念发现:这是本文最核心的贡献。将 Concept Splitting 从单层推广到递归多层,整个过程完全不需要额外标注——所有子概念都是从 CEM 的嵌入空间中"挖掘"出来的。这个设计之所以巧妙,是因为它利用了训练好的 CEM 嵌入空间本身就包含了丰富的语义结构这一事实,只需要恰当的聚类算法就能把这些潜在结构显式化。
- 多粒度干预的实用价值:传统 CBMs 的概念干预是"一刀切"的——所有概念在同一粒度。Deep-HiCEMs 允许用户根据自己的专业水平和具体场景选择合适的干预粒度,这在实际部署中非常有价值。比如在医学影像领域,放射科专家可以在非常细的子概念(如"结节边缘毛糙程度")上干预,而普通医生可以在粗概念(如"有结节")上干预。
- 概念层级与 SAE 的桥接:论文将 Concept Splitting 和 Sparse Autoencoder 联系起来,暗示可解释 AI 中的"特征分解"和"概念层级"可能是同一问题的不同视角。这为两个社区的方法融合提供了思路。
局限与展望¶
- Workshop 论文的实验规模有限:作为 4-6 页的 workshop 论文,实验主要在小规模数据集(MNIST-ADD、CUB 等)上进行,缺少 ImageNet 级别的大规模验证,难以评估方法在真实复杂场景下的可扩展性。
- 分裂质量依赖基础 CEM 的嵌入质量:如果初始 CEM 的概念嵌入空间质量不高(比如概念间严重纠缠),MLCS 的递归分裂可能产生无意义的子概念。作为后处理方法,其上限受限于基础模型。
- 计算开销随深度增长:递归分裂的每一层都需要对所有样本的嵌入执行聚类,层数越多计算成本越高。对于大规模数据集和很深的层级树,这可能成为瓶颈。
- 缺少层级结构的跨任务迁移:当前方法为每个任务独立发现概念层级,未探讨已发现的层级是否可以迁移到相关但不同的任务。
- 与基于注意力的可解释方法缺乏对比:论文主要在 concept-based model 体系内比较,缺少与 attention mechanism、Grad-CAM、SHAP 等主流可解释方法的系统对比。
相关工作与启发¶
- vs HiCEMs (ICLR 2026 主会):同组同期工作。HiCEMs 是本文的基础——提出了层级概念嵌入和单层 Concept Splitting 的核心思想。本文的贡献是将其从浅层推广到多层,这看起来是增量但技术上需要解决递归分裂质量控制和 Deep-HiCEMs 架构设计两个关键问题。
- vs Concept Bottleneck Models (CBMs):CBMs 是 concept-based model 的开山之作,将概念作为瓶颈层,但概念是扁平、独立的。本文在表达能力上对 CBMs 是质的超越——从扁平列表到多层树。
- vs Concept Embedding Models (CEMs):CEMs 提出了用高维嵌入表示概念(而非二值标量),为 Concept Splitting 提供了必要的语义丰富的嵌入空间。本文直接建立在 CEM 的嵌入空间之上。
- vs Sparse Autoencoders (SAEs):近期在 LLM 可解释性中大热的 SAE 也在做"特征分解",但产出的是扁平特征字典。本文的概念层级提供了结构化的组织方式,两种方法互补。
- 启发:概念层级的自动发现思路可以迁移到其他模态——比如在 NLP 中从 token-level 概念递归分裂出 sub-token 语义特征,或在多模态模型中构建跨模态的概念对齐层级。
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心 idea(递归多层分裂)是 HiCEMs 的自然且重要扩展,增量但有价值
- 实验充分度: ⭐⭐⭐ Workshop 论文篇幅限制,实验规模偏小,缺少定量消融和大规模验证
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述紧凑,与主会论文 HiCEMs 的关系交代得当
- 价值: ⭐⭐⭐⭐ 多层概念层级是概念模型从"可用"到"好用"的关键一步,面向实际部署场景有意义
相关论文¶
- [ICLR 2026] Hierarchical Concept-based Interpretable Models
- [CVPR 2026] MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model
- [NeurIPS 2025] Deep Research Brings Deeper Harm
- [ECCV 2024] Multi-Label Cluster Discrimination for Visual Representation Learning
- [ICLR 2026] Query-Level Uncertainty in Large Language Models