CI-ICE: Intrinsic Concept Extraction Based on Compositional Interpretability¶

会议: CVPR 2026
arXiv: 2603.11795
代码: 待确认
领域: 扩散模型 / 图像生成 / 可解释性
关键词: concept extraction, compositionality, hyperbolic space, diffusion model, interpretability

一句话总结¶

提出CI-ICE新任务和HyperExpress方法，利用双曲空间的层次建模能力提取可组合的物体级/属性级内在概念，通过Horosphere投影模块保证概念嵌入空间的可组合性。

背景与动机¶

无监督概念提取(UCE)旨在从单张图像中提取人类可理解的视觉概念（如物体、颜色、材质），是模型可解释性的重要手段。现有方法存在两个关键缺陷：(1) ConceptExpress、AutoConcept等只能提取物体级概念，无法分离属性级概念（颜色、材质）；(2) ICE虽能分离物体和属性概念，但不考虑概念间的可组合性——提取的概念无法通过简单组合重建原始复杂概念，导致解释路径不可逆、不可理解。CCE方法虽考虑了可组合性，但需要多张包含相同概念的图像。

核心问题¶

如何从单张图像中提取出既在层次上解耦（物体级vs属性级）、又具备可组合性（能重新组合重建原概念）的内在视觉概念？

方法详解¶

整体框架¶

HyperExpress从"概念学习"和"概念优化"两个方面解决CI-ICE任务。概念学习在双曲空间（Poincaré球）中进行，利用双曲对比学习区分物体/属性概念的层次，再用双曲蕴含学习建立它们的关联关系；概念优化通过Horosphere投影将嵌入空间映射到可组合的子流形上。

关键设计¶

双曲对比学习模块(HCL): 利用双曲空间固有的层次建模能力。通过CLIP编码器+指数映射将token嵌入到Poincaré球上，使用双曲三元组损失分别区分(a)物体级概念vs属性级概念（以anchor文本描述为桥梁），(b)同一物体的不同属性概念之间。双曲空间中差异大的概念自然距离更远，优于欧几里得空间。
双曲蕴含学习模块(HEL): 在Lorentz模型中建立物体与属性间的蕴含关系——属性概念应落在对应物体概念的蕴含锥内。通过蕴含损失约束空间角度与锥半径的关系，建模"金属的"是"机器人"的属性这种层级关联。
Horosphere投影模块(HP): 解决可组合性问题。在双曲空间的horosphere（零曲率等价面）上进行投影，利用horosphere继承的欧几里得性质（如向量加法），使投影后的概念满足线性组合条件。关键性质是投影保距（Proposition 2），不破坏已学习的层次结构和关联关系。

损失函数 / 训练策略¶

总损失 L = L_recon + λ_triplet·L_triplet + λ_attention·L_attention + λ_entail·L_entail。其中L_recon为扩散模型标准去噪重建损失；L_triplet包含物体级和属性级两种三元组损失；L_attention为Wasserstein注意力对齐损失（将T2I模型注意力对齐到掩码区域）；L_entail为蕴含损失。概念初始化利用ICE第一阶段的目标定位和语义分类获取掩码和文本描述。

实验关键数据¶

基准	指标	HyperExpress	ICE	说明
UCEBench	SIM_I↑	0.699	0.738	ICE略高但不保可组合性
UCEBench	SIM_C↑	0.786	0.822	同上
UCEBench	ACC_1↑	0.504	-	概念解耦准确率
UCEBench	ACC_3↑	0.736	-	概念解耦准确率
ICBench	SIM_T-T (obj)↑	0.280	-	概念与GPT描述的文本相似度
ICBench	SIM_T-V (obj)↑	0.305	-	概念生成图像与GPT描述的相似度

消融实验要点¶

HCL+HEL+HP完整模型(0.699/0.786/0.504/0.736)相比仅HCL有全面提升
HEL模块（蕴含学习）对准确的层级解耦贡献明显
HP模块（Horosphere投影）对可组合性指标ACC有显著提升
各模块贡献互补：HCL管解耦基础、HEL管关联关系、HP管可组合性

亮点¶

将"可组合性"作为概念提取的核心目标提出，从任务定义层面就有创新
双曲空间用于视觉概念提取是新颖的切入点，层次建模能力天然匹配物体-属性的层级关系
Horosphere投影保距且保证可组合性的数学性质很elegant
定性比较中组合路径的可解释性明显优于ICE（如"robot" + "metal" + "gold" → "golden metal robot"）

局限性 / 可改进方向¶

在SIM_I和SIM_C指标上略逊于ICE——可组合性和重建精度存在一定trade-off
物体数量N和属性数量M需预设，在复杂场景中可能不够灵活
推理效率未讨论——双曲空间运算和Horosphere投影在嵌入维度较高时的计算开销
仅在扩散模型(Stable Diffusion)上验证，对其他T2I模型的泛化性待验证

与相关工作的对比¶

vs ICE: ICE能提取物体和属性概念但不保证可组合性，组合路径难以理解；HyperExpress通过双曲空间建模和HP投影实现可逆的概念分解-重组。 vs CCE: CCE也考虑可组合性，但需要多张含相同概念的图像，且限制在欧几里得空间，难以捕获层级关系。 vs ConceptExpress/Break-A-Scene: 只能提取物体级概念，无法分离属性。

启发与关联¶

双曲空间在视觉概念建模中的应用值得更深入探索
可组合性作为解释性的核心指标，对可解释AI领域有启发

评分¶

新颖性: ⭐⭐⭐⭐ 任务定义新颖，双曲空间+Horosphere投影的结合有理论深度
实验充分度: ⭐⭐⭐ 消融充分但定量指标不压倒性领先，数据集规模有限
写作质量: ⭐⭐⭐⭐ 数学推导严谨，概念层次清晰，图示设计好
价值: ⭐⭐⭐ 可组合概念提取是重要方向，但实际应用场景需进一步探索