Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers¶
日期: 2026-03-25
arXiv: 2603.24275
代码: 附在补充材料中
领域: 多模态/VLM / 图像聚类 / 提示学习
关键词: image clustering, CLIP, language-assisted, prompt learning, semantic centers
一句话总结¶
提出新的语言辅助图像聚类(LAIC)框架:通过跨模态关系矩阵(ridge regression 重建图像-文本表示)挖掘更具判别力的自监督信号 + 通过提示学习在 CLIP 语义空间中学习连续类别语义中心来产生最终聚类分配,在 8 个基准上平均超越 SOTA 2.6%。
研究背景与动机¶
-
领域现状:语言辅助图像聚类(LAIC)利用 CLIP 等 VLM 的图像-文本对齐能力,用文本语义增强图像聚类。现有方法分两步:从 WordNet 等外部语料构建候选名词集为每张图像构建文本特征 → 利用图文特征联合聚类。
-
现有痛点:
- 构建的文本特征高度相似(文本 prompt 只捕捉粗粒度语义,名词空间比图像空间紧凑),导致类间判别力弱
- 聚类受限于预构建的图文对齐关系,无法从 VLM 的原生语义空间中提取更准确的语义
-
核心矛盾:文本特征空间过于紧凑 → 基于文本的自监督信号判别力不足 vs 图像空间虽丰富但缺乏语义指导。
-
核心 idea:(1) 用 ridge regression 学习图像-文本表示矩阵 \(\mathbf{C}\),每行描述一张图像在整个文本空间中的关系,天然具有更强判别力;(2) 通过提示学习直接在 CLIP 语义空间中优化连续类别语义中心。
方法详解¶
整体框架¶
两阶段:跨模态关系挖掘(构建判别表示+K-means 获取伪标签)→ 语义中心学习(提示学习优化连续中心+最终聚类分配)
关键设计¶
-
跨模态关系矩阵 \(\mathbf{C}\):
- 做什么:用整个候选名词集的文本特征重建图像特征,\(\min_\mathbf{C} \|\mathbf{X} - \mathbf{CU}\|_F^2 + \gamma\|\mathbf{C}\|_F^2\)
- 核心思路:闭式解 \(\mathbf{C}^* = \mathbf{X}\mathbf{U}^\top(\mathbf{U}\mathbf{U}^\top + \gamma\mathbf{I})^{-1}\),每行 \(\mathbf{c}_i\) 是图像在文本空间的密集语义描述
- 设计动机:CLIP 的判别力来自跨模态信息(图文相似度差异),\(\mathbf{C}\) 精确捕捉了这种跨模态关系信号,比只看最近邻文本特征更具判别力。语义相似的图像在此空间中自然紧凑,不同类自然分离
-
连续语义中心学习:
- 做什么:用可学习的向量替换 "a photo of a [class]" 中的 [class],通过冻结 CLIP 文本编码器获得每个类别的语义中心特征
- 核心思路:最大化伪标签类别的语义中心与对应图像特征的对齐,最终按最近中心分配聚类
- 设计动机:不依赖预构建的图文匹配关系,直接在 CLIP 的原生语义空间中搜索最优类别描述。实验显示学到的语义中心甚至比真实类名更好(CLIP zero-shot 用真类名可能有错误分配,连续中心更灵活)
-
高质量伪标签筛选:
- 邻域一致性打分:\(\alpha_i = \frac{1}{\hat{k}}\sum_{j \in \mathcal{N}_{\hat{k}}(i)} \mathbb{I}[\hat{y}_j = \hat{y}_i]\)
- 只保留一致性 ≥ τ 的样本作为语义中心学习的监督
损失函数 / 训练策略¶
- 阶段一(关系挖掘):ridge regression 有闭式解,无需迭代;K-means 在 \(\mathbf{C}\) 空间聚类获取伪标签
- 阶段二(语义中心学习):交叉熵损失对齐伪标签与最近语义中心,仅优化 prompt token(~16 维)
- 伪标签迭代更新:两阶段交替执行 2-3 轮收敛
- CLIP 全程冻结,计算开销主要在 ridge regression 的矩阵求逆(一次性)
实验关键数据¶
主实验(8 个基准数据集 Clustering ACC)¶
| 方法 | CIFAR-10 | CIFAR-100 | STL-10 | ImageNet-10 | 平均 |
|---|---|---|---|---|---|
| TAC (SOTA) | ~96 | ~65 | ~97 | ~98 | - |
| Ours | ~98 | ~68 | ~98 | ~99 | +2.6% avg |
关键发现¶
- 跨模态表示矩阵的邻域更准确:在 \(\mathbf{C}\) 空间中计算的 k-NN 同类概率高于直接用 CLIP 图像特征(Figure 2 量化验证)
- 学习到的语义中心优于真实类名:在 DTD 等数据集上,连续语义中心的聚类精度超过用 GT 类名的 zero-shot CLIP
- 方法与 CLIP 的训练机制高度兼容:CLIP 通过图文对对比学习训练,跨模态关系信号正是其判别力的根源
- ridge regression 的正则化参数 \(\gamma\) 不敏感:在较大范围内变化(0.01-10)精度波动 <1%,鲁棒性好
- 伪标签筛选阈值 \(\tau\) 在 0.6-0.8 范围内表现稳定,过低引入噪声,过高导致样本不足
- 计算效率优势:全流程不需要 GPU 训练 CLIP,只需矩阵运算 + 提示学习(几分钟内完成)
亮点与洞察¶
- ridge regression 构建跨模态表示的思路简洁有效:闭式解、无需迭代训练、计算高效,但提供了比传统最近邻匹配更丰富的判别信息。核心 insight 是“一张图像在整个文本空间中的系数分布”比“最匹配的单个文本”包含更多判别信息。这个思路可以迁移到其他需要跨模态表示的场景(如图文检索、多模态推荐)
- 连续语义中心突破了离散类名的限制:在 CLIP 的连续语义空间中搜索最优类别表示,比手动选择或 LLM 生成的类名更灵活。在 DTD 等数据集上甚至超过了 GT 类名的 zero-shot 精度——说明 CLIP 的语义空间比人类语言更「细致」
- 两阶段设计的解耦:第一阶段不依赖 CLIP 的原始对齐(用 ridge regression 重建),第二阶段回到 CLIP 语义空间(用 prompt learning),各取所长
- 伪标签质量控制:邻域一致性筛选是一个简单但有效的策略,可以推广到其他半监督/无监督方法
- 计算效率优势显著:不需要微调 CLIP,只需矩阵运算 + 提示学习,在普通 GPU 上几分钟完成
局限性 / 可改进方向¶
- 依赖 WordNet 候选名词集的质量和覆盖度——如果候选集遗漏了关键概念则关系矩阵会失真
- CLIP 冻结使用,未探索 adapter/fine-tune 的可能性
- 聚类数 K 需要已知,未探索自动确定聚类数的设定
- 在细粒度数据集(如 CUB-200)上实验缺失,这类数据集对聚类方法挑战更大
- 候选名词集的大小对计算复杂度有直接影响(ridge regression 矩阵维度取决于此)
- 未探索将方法扩展到其他 VLM(如 SigLIP、EVA-CLIP)的可能性
- 伪标签迭代更新的收敛性分析不够充分——多少轮迭代是最优的?
- 对于类别严重不平衡的数据集,平均聚类精度可能掩盖小类上的差劲表现
相关工作与启发¶
- vs TAC: TAC 用离散文本特征做聚类引导,本文用连续关系矩阵+prompt 学习双重提升,平均提高 2.6%
- vs CLIP zero-shot: CLIP 直接用类名做分类受限于 prompt 工程质量,本文的连续语义中心自动优化超越了人工设计
- vs CoOp/CoCoOp: 这些是 few-shot 场景的 prompt 学习方法,本文将 prompt 学习用于无监督聚类,场景不同但技术路线有借鉴
- 方法论贡献:证明了 VLM 的跨模态结构可以通过简单的数学工具(ridge regression)释放出强大的无监督聚类能力,不需要复杂的微调策略
- 与图文检索的潜在关联:跨模态关系矩阵本质上是图像在文本空间的密集投影,这种表示可能对密集检索也有价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 跨模态关系矩阵和连续语义中心两个设计都有理论动机
- 实验充分度: ⭐⭐⭐⭐ 8 个数据集 + 消融 + 可视化分析,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 分析透彻,图示直观,数学推导严谨
- 价值: ⭐⭐⭐⭐ 对 VLM 辅助聚类有方法论贡献,代码开源便于复现
总体评价:LAIC 通过 ridge regression 重建跨模态关系信号 + 连续语义中心学习两阶段方法,以极低计算成本在 8 个数据集上取得 SOTA 聚类精度。方法简洁优雅,对 CLIP 等 VLM 的判别能力有新颖的利用方式,具有良好的方法论输出价值。
核心启示:VLM 的跨模态结构本身蕴含强大的无监督判别信号,不需要复杂的微调策略即可释放。