KEC: Hierarchical Textual Knowledge for Enhanced Image Clustering¶

会议: CVPR 2026
arXiv: 2604.11144
代码: 无
领域: 多模态VLM
关键词: 图像聚类, 文本知识, 大语言模型, CLIP, 判别性属性

一句话总结¶

KEC 利用 LLM 构建层级化的概念-属性结构化文本知识来引导图像聚类，在 20 个数据集上无需训练即超越零样本 CLIP 14 个数据集，证明了判别性属性比简单类名更有效。

领域现状：图像聚类从几何先验→深度表示学习→视觉语言模型辅助不断发展。CLIP 等 VLM 使文本知识注入聚类成为可能。

现有痛点：现有方法要么用 VLM 逐图生成描述（计算昂贵），要么从 WordNet 选取浅层名词（语义冗余、粒度不一）。朴素引入文本知识甚至可能损害聚类性能。

核心矛盾：视觉相似但语义不同的类别（如秋田犬 vs 柴犬）仅靠类名无法区分，需要判别性属性（腿长、尾巴弯曲度、耳朵姿态），但获取这些属性需要专业知识且难以自动化。

核心 idea：用 LLM 从冗余名词中蒸馏抽象概念，再自动提取概念内和概念间的判别性属性，构建层级知识用于特征增强。

图像→CLIP 视觉特征→与 WordNet 名词对齐→LLM 蒸馏代表性概念→LLM 提取单概念和概念对的判别性属性→实例化为每张图像的知识增强特征→与视觉特征结合→送入下游聚类算法。

概念抽象（Concept Abstraction）:
- 功能：从冗余的 WordNet 名词中蒸馏出代表性概念
- 核心思路：先用 CLIP 将图像映射到最近名词，再用 LLM 将语义重叠的名词组合为更抽象的概念类别
- 设计动机：WordNet 中同义词和近义词太多（如 car/automobile/vehicle），直接使用会稀释类别间的区分度
判别性属性提取:
- 功能：为相似概念对自动生成区分属性
- 核心思路：单概念属性（LLM 描述每个概念的典型特征）+ 概念对属性（LLM 对比两个相似概念的差异特征）。例如"秋田犬 vs 柴犬"→"体型大小、毛发长度、耳朵形状"
- 设计动机：人类区分相似物体正是靠判别性属性，CLIP 的注意力图证实了属性描述能引导模型关注相关区域
知识实例化与特征融合:
- 功能：将结构化知识转化为每张图像的增强特征
- 核心思路：用 CLIP 文本编码器编码属性描述，计算与图像的相似度作为属性得分，拼接为知识增强特征向量，与原始视觉特征加权组合
- 设计动机：将全局知识落地到每个具体图像实例上，使不同图像获得不同的知识增强

KEC 本身无训练，直接生成增强特征送入现有聚类算法（K-means、spectral clustering 等）。

对比	指标	KEC (无训练)	有训练方法	说明
20 数据集平均	NMI	优	低 3%	KEC 无训练超越有训练方法
vs CLIP zero-shot	Acc	14/20 数据集胜出	-	-