Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers¶

日期: 2026-03-25
arXiv: 2603.24275
代码: 附在补充材料中
领域: 多模态/VLM / 图像聚类 / 提示学习
关键词: image clustering, CLIP, language-assisted, prompt learning, semantic centers

一句话总结¶

提出新的语言辅助图像聚类（LAIC）框架：通过跨模态关系矩阵（ridge regression 重建图像-文本表示）挖掘更具判别力的自监督信号 + 通过提示学习在 CLIP 语义空间中学习连续类别语义中心来产生最终聚类分配，在 8 个基准上平均超越 SOTA 2.6%。

研究背景与动机¶

领域现状：语言辅助图像聚类（LAIC）利用 CLIP 等 VLM 的图像-文本对齐能力，用文本语义增强图像聚类。现有方法分两步：从 WordNet 等外部语料构建候选名词集为每张图像构建文本特征 → 利用图文特征联合聚类。
现有痛点：
- 构建的文本特征高度相似（文本 prompt 只捕捉粗粒度语义，名词空间比图像空间紧凑），导致类间判别力弱
- 聚类受限于预构建的图文对齐关系，无法从 VLM 的原生语义空间中提取更准确的语义
核心矛盾：文本特征空间过于紧凑 → 基于文本的自监督信号判别力不足 vs 图像空间虽丰富但缺乏语义指导。
核心 idea：(1) 用 ridge regression 学习图像-文本表示矩阵 \(\mathbf{C}\)，每行描述一张图像在整个文本空间中的关系，天然具有更强判别力；(2) 通过提示学习直接在 CLIP 语义空间中优化连续类别语义中心。

方法详解¶

整体框架¶

两阶段：跨模态关系挖掘（构建判别表示+K-means 获取伪标签）→ 语义中心学习（提示学习优化连续中心+最终聚类分配）

关键设计¶

跨模态关系矩阵 \(\mathbf{C}\):
- 做什么：用整个候选名词集的文本特征重建图像特征，\(\min_\mathbf{C} \|\mathbf{X} - \mathbf{CU}\|_F^2 + \gamma\|\mathbf{C}\|_F^2\)
- 核心思路：闭式解 \(\mathbf{C}^* = \mathbf{X}\mathbf{U}^\top(\mathbf{U}\mathbf{U}^\top + \gamma\mathbf{I})^{-1}\)，每行 \(\mathbf{c}_i\) 是图像在文本空间的密集语义描述
- 设计动机：CLIP 的判别力来自跨模态信息（图文相似度差异），\(\mathbf{C}\) 精确捕捉了这种跨模态关系信号，比只看最近邻文本特征更具判别力。语义相似的图像在此空间中自然紧凑，不同类自然分离
连续语义中心学习:
- 做什么：用可学习的向量替换 "a photo of a [class]" 中的 [class]，通过冻结 CLIP 文本编码器获得每个类别的语义中心特征
- 核心思路：最大化伪标签类别的语义中心与对应图像特征的对齐，最终按最近中心分配聚类
- 设计动机：不依赖预构建的图文匹配关系，直接在 CLIP 的原生语义空间中搜索最优类别描述。实验显示学到的语义中心甚至比真实类名更好（CLIP zero-shot 用真类名可能有错误分配，连续中心更灵活）
高质量伪标签筛选:
- 邻域一致性打分：\(\alpha_i = \frac{1}{\hat{k}}\sum_{j \in \mathcal{N}_{\hat{k}}(i)} \mathbb{I}[\hat{y}_j = \hat{y}_i]\)
- 只保留一致性 ≥ τ 的样本作为语义中心学习的监督

损失函数 / 训练策略¶

阶段一（关系挖掘）：ridge regression 有闭式解，无需迭代；K-means 在 \(\mathbf{C}\) 空间聚类获取伪标签
阶段二（语义中心学习）：交叉熵损失对齐伪标签与最近语义中心，仅优化 prompt token（~16 维）
伪标签迭代更新：两阶段交替执行 2-3 轮收敛
CLIP 全程冻结，计算开销主要在 ridge regression 的矩阵求逆（一次性）

实验关键数据¶

主实验（8 个基准数据集 Clustering ACC）¶

方法	CIFAR-10	CIFAR-100	STL-10	ImageNet-10	平均
TAC (SOTA)	~96	~65	~97	~98	-
Ours	~98	~68	~98	~99	+2.6% avg

关键发现¶

跨模态表示矩阵的邻域更准确：在 \(\mathbf{C}\) 空间中计算的 k-NN 同类概率高于直接用 CLIP 图像特征（Figure 2 量化验证）
学习到的语义中心优于真实类名：在 DTD 等数据集上，连续语义中心的聚类精度超过用 GT 类名的 zero-shot CLIP
方法与 CLIP 的训练机制高度兼容：CLIP 通过图文对对比学习训练，跨模态关系信号正是其判别力的根源
ridge regression 的正则化参数 \(\gamma\) 不敏感：在较大范围内变化（0.01-10）精度波动 <1%，鲁棒性好
伪标签筛选阈值 \(\tau\) 在 0.6-0.8 范围内表现稳定，过低引入噪声，过高导致样本不足
计算效率优势：全流程不需要 GPU 训练 CLIP，只需矩阵运算 + 提示学习（几分钟内完成）

亮点与洞察¶

ridge regression 构建跨模态表示的思路简洁有效：闭式解、无需迭代训练、计算高效，但提供了比传统最近邻匹配更丰富的判别信息。核心 insight 是“一张图像在整个文本空间中的系数分布”比“最匹配的单个文本”包含更多判别信息。这个思路可以迁移到其他需要跨模态表示的场景（如图文检索、多模态推荐）
连续语义中心突破了离散类名的限制：在 CLIP 的连续语义空间中搜索最优类别表示，比手动选择或 LLM 生成的类名更灵活。在 DTD 等数据集上甚至超过了 GT 类名的 zero-shot 精度——说明 CLIP 的语义空间比人类语言更「细致」
两阶段设计的解耦：第一阶段不依赖 CLIP 的原始对齐（用 ridge regression 重建），第二阶段回到 CLIP 语义空间（用 prompt learning），各取所长
伪标签质量控制：邻域一致性筛选是一个简单但有效的策略，可以推广到其他半监督/无监督方法
计算效率优势显著：不需要微调 CLIP，只需矩阵运算 + 提示学习，在普通 GPU 上几分钟完成

局限性 / 可改进方向¶

依赖 WordNet 候选名词集的质量和覆盖度——如果候选集遗漏了关键概念则关系矩阵会失真
CLIP 冻结使用，未探索 adapter/fine-tune 的可能性
聚类数 K 需要已知，未探索自动确定聚类数的设定
在细粒度数据集（如 CUB-200）上实验缺失，这类数据集对聚类方法挑战更大
候选名词集的大小对计算复杂度有直接影响（ridge regression 矩阵维度取决于此）
未探索将方法扩展到其他 VLM（如 SigLIP、EVA-CLIP）的可能性
伪标签迭代更新的收敛性分析不够充分——多少轮迭代是最优的？
对于类别严重不平衡的数据集，平均聚类精度可能掩盖小类上的差劲表现

评分¶

新颖性: ⭐⭐⭐⭐ 跨模态关系矩阵和连续语义中心两个设计都有理论动机
实验充分度: ⭐⭐⭐⭐ 8 个数据集 + 消融 + 可视化分析，覆盖全面
写作质量: ⭐⭐⭐⭐ 分析透彻，图示直观，数学推导严谨
价值: ⭐⭐⭐⭐ 对 VLM 辅助聚类有方法论贡献，代码开源便于复现

总体评价：LAIC 通过 ridge regression 重建跨模态关系信号 + 连续语义中心学习两阶段方法，以极低计算成本在 8 个数据集上取得 SOTA 聚类精度。方法简洁优雅，对 CLIP 等 VLM 的判别能力有新颖的利用方式，具有良好的方法论输出价值。

核心启示：VLM 的跨模态结构本身蕴含强大的无监督判别信号，不需要复杂的微调策略即可释放。