CI-ICE: Intrinsic Concept Extraction Based on Compositional Interpretability¶
会议: CVPR 2026
arXiv: 2603.11795
代码: 待确认
领域: 扩散模型 / 图像生成 / 可解释性
关键词: concept extraction, compositionality, hyperbolic space, diffusion model, interpretability
一句话总结¶
提出CI-ICE新任务和HyperExpress方法,利用双曲空间的层次建模能力提取可组合的物体级/属性级内在概念,通过Horosphere投影模块保证概念嵌入空间的可组合性。
背景与动机¶
无监督概念提取(UCE)旨在从单张图像中提取人类可理解的视觉概念(如物体、颜色、材质),是模型可解释性的重要手段。现有方法存在两个关键缺陷:(1) ConceptExpress、AutoConcept等只能提取物体级概念,无法分离属性级概念(颜色、材质);(2) ICE虽能分离物体和属性概念,但不考虑概念间的可组合性——提取的概念无法通过简单组合重建原始复杂概念,导致解释路径不可逆、不可理解。CCE方法虽考虑了可组合性,但需要多张包含相同概念的图像。
核心问题¶
如何从单张图像中提取出既在层次上解耦(物体级vs属性级)、又具备可组合性(能重新组合重建原概念)的内在视觉概念?
方法详解¶
整体框架¶
HyperExpress从"概念学习"和"概念优化"两个方面解决CI-ICE任务。概念学习在双曲空间(Poincaré球)中进行,利用双曲对比学习区分物体/属性概念的层次,再用双曲蕴含学习建立它们的关联关系;概念优化通过Horosphere投影将嵌入空间映射到可组合的子流形上。
关键设计¶
- 双曲对比学习模块(HCL): 利用双曲空间固有的层次建模能力。通过CLIP编码器+指数映射将token嵌入到Poincaré球上,使用双曲三元组损失分别区分(a)物体级概念vs属性级概念(以anchor文本描述为桥梁),(b)同一物体的不同属性概念之间。双曲空间中差异大的概念自然距离更远,优于欧几里得空间。
- 双曲蕴含学习模块(HEL): 在Lorentz模型中建立物体与属性间的蕴含关系——属性概念应落在对应物体概念的蕴含锥内。通过蕴含损失约束空间角度与锥半径的关系,建模"金属的"是"机器人"的属性这种层级关联。
- Horosphere投影模块(HP): 解决可组合性问题。在双曲空间的horosphere(零曲率等价面)上进行投影,利用horosphere继承的欧几里得性质(如向量加法),使投影后的概念满足线性组合条件。关键性质是投影保距(Proposition 2),不破坏已学习的层次结构和关联关系。
损失函数 / 训练策略¶
总损失 L = L_recon + λ_triplet·L_triplet + λ_attention·L_attention + λ_entail·L_entail。其中L_recon为扩散模型标准去噪重建损失;L_triplet包含物体级和属性级两种三元组损失;L_attention为Wasserstein注意力对齐损失(将T2I模型注意力对齐到掩码区域);L_entail为蕴含损失。概念初始化利用ICE第一阶段的目标定位和语义分类获取掩码和文本描述。
实验关键数据¶
| 基准 | 指标 | HyperExpress | ICE | 说明 |
|---|---|---|---|---|
| UCEBench | SIM_I↑ | 0.699 | 0.738 | ICE略高但不保可组合性 |
| UCEBench | SIM_C↑ | 0.786 | 0.822 | 同上 |
| UCEBench | ACC_1↑ | 0.504 | - | 概念解耦准确率 |
| UCEBench | ACC_3↑ | 0.736 | - | 概念解耦准确率 |
| ICBench | SIM_T-T (obj)↑ | 0.280 | - | 概念与GPT描述的文本相似度 |
| ICBench | SIM_T-V (obj)↑ | 0.305 | - | 概念生成图像与GPT描述的相似度 |
消融实验要点¶
- HCL+HEL+HP完整模型(0.699/0.786/0.504/0.736)相比仅HCL有全面提升
- HEL模块(蕴含学习)对准确的层级解耦贡献明显
- HP模块(Horosphere投影)对可组合性指标ACC有显著提升
- 各模块贡献互补:HCL管解耦基础、HEL管关联关系、HP管可组合性
亮点¶
- 将"可组合性"作为概念提取的核心目标提出,从任务定义层面就有创新
- 双曲空间用于视觉概念提取是新颖的切入点,层次建模能力天然匹配物体-属性的层级关系
- Horosphere投影保距且保证可组合性的数学性质很elegant
- 定性比较中组合路径的可解释性明显优于ICE(如"robot" + "metal" + "gold" → "golden metal robot")
局限性 / 可改进方向¶
- 在SIM_I和SIM_C指标上略逊于ICE——可组合性和重建精度存在一定trade-off
- 物体数量N和属性数量M需预设,在复杂场景中可能不够灵活
- 推理效率未讨论——双曲空间运算和Horosphere投影在嵌入维度较高时的计算开销
- 仅在扩散模型(Stable Diffusion)上验证,对其他T2I模型的泛化性待验证
与相关工作的对比¶
vs ICE: ICE能提取物体和属性概念但不保证可组合性,组合路径难以理解;HyperExpress通过双曲空间建模和HP投影实现可逆的概念分解-重组。 vs CCE: CCE也考虑可组合性,但需要多张含相同概念的图像,且限制在欧几里得空间,难以捕获层级关系。 vs ConceptExpress/Break-A-Scene: 只能提取物体级概念,无法分离属性。
启发与关联¶
- 双曲空间在视觉概念建模中的应用值得更深入探索
- 可组合性作为解释性的核心指标,对可解释AI领域有启发
评分¶
- 新颖性: ⭐⭐⭐⭐ 任务定义新颖,双曲空间+Horosphere投影的结合有理论深度
- 实验充分度: ⭐⭐⭐ 消融充分但定量指标不压倒性领先,数据集规模有限
- 写作质量: ⭐⭐⭐⭐ 数学推导严谨,概念层次清晰,图示设计好
- 价值: ⭐⭐⭐ 可组合概念提取是重要方向,但实际应用场景需进一步探索