跳转至

CAE: Hierarchical Semantic Alignment for Image Clustering

会议: AAAI 2026
arXiv: 2512.00904
代码: 无
领域: 对齐RLHF / 多模态VLM
关键词: image clustering, semantic alignment, optimal transport, caption-level semantics, training-free

一句话总结

结合名词级(WordNet)和描述级(Flickr 图片描述)两种互补语义,通过最优传输对齐构建语义空间并自适应融合,实现 training-free 的图像聚类,在 ImageNet-1K 上准确率提升 4.2%。

研究背景与动机

  1. 领域现状:图像聚类从对比学习、自监督发展到利用外部文本语义引导。SIC 用 WordNet 名词,TAC 结合名词嵌入与图像嵌入。
  2. 现有痛点:仅用名词有两个问题——多义性("crane"可以是鸟或起重机)和细粒度不足("spaniel"无法区分不同犬种)。
  3. 核心矛盾:名词提供高层类别信息但缺乏属性细节,单一语义类型不足以消歧。
  4. 本文要解决什么? 构建更精确的外部语义空间来指导图像聚类。
  5. 切入角度:名词(类别)和描述(属性)互补——名词知道"是什么",描述知道"长什么样"。
  6. 核心 idea 一句话:结合 WordNet 名词和 Flickr 描述,通过 OT 对齐构建双重语义空间并自适应融合。

方法详解

整体框架

输入是 CLIP 编码的图像嵌入、WordNet 名词嵌入、Flickr 描述嵌入。分两步:(1)语义空间构建——筛选相关名词/描述子集,通过 OT 为每张图像计算对应物;(2)自适应融合——原型引导权重机制融合三模态特征,k-means 聚类。

关键设计

  1. 语义空间构建
  2. 做什么:从海量名词/描述中筛选与图像语义相关的子集
  3. 核心思路:对图像嵌入做 k-means 得 \(n = N/300\) 个中心,每个中心选 top-\(K\) 最相似名词/描述,取并集
  4. 设计动机:空间不能太大(噪声)也不能太小(丢信息)

  5. 最优传输构建语义对应物

  6. 做什么:为每张图像计算名词对应物 \(\mathbf{x}_i^u\) 和描述对应物 \(\mathbf{x}_i^v\)
  7. 核心思路:图像-名词对齐建模为 OT 问题,Sinkhorn-Knopp 求解传输计划 \(\mathbf{T}^u\),加权组合 \(\mathbf{x}_i^u = \sum_j t_{i,j}^u s_{i,j}^u \mathbf{u}_j\)
  8. 设计动机:Theorem 1 证明 OT 列约束确保名词均衡使用,语义误差严格不高于 softmax

  9. 自适应语义融合

  10. 做什么:样本级动态调整三模态融合权重
  11. 核心思路:语义原型 \(\mathbf{x}_i^p = \frac{1}{3}(\mathbf{x}_i + \mathbf{x}_i^u + \mathbf{x}_i^v)\),各模态与原型的余弦经 softmax 温度缩放得权重
  12. 设计动机:不同图像对名词/描述依赖不同,需样本级自适应

损失函数 / 训练策略

完全 training-free。OT 用 Sinkhorn 迭代,融合后 k-means。温度 \(\gamma = 0.01\)

实验关键数据

主实验

数据集 指标 CAE 之前 SOTA 提升
ImageNet-1K ACC 76.5% 72.3% (SIC) +4.2%
ImageNet-1K ARI 56.8% 53.9% +2.9%
DTD ACC 52.3% 47.7% +4.6%
UCF-101 ACC 71.6% 69.3% +2.3%

消融实验

配置 ImageNet-1K ACC 说明
Full CAE 76.5% 完整模型
w/o Captions 72.8% 去掉描述 -3.7%
w/o Nouns 71.2% 去掉名词 -5.3%
Softmax 替代 OT 74.1% OT 比 softmax 好 2.4%
简单拼接 74.8% 自适应融合比拼接好 1.7%

关键发现

  • 名词和描述互补:去掉任何一个都大幅掉点,描述贡献略大
  • OT 比 softmax 好 2.4%:列约束确保名词均衡使用
  • 在困难数据集(DTD 纹理 +4.6%、UCF-101 动作 +2.3%)上提升更明显

亮点与洞察

  • 双重语义互补:名词类别 + 描述属性将 ImageNet-1K 上图像余弦相似度从 0.73 降到 0.35。
  • OT 理论优势:Theorem 1 严格证明 OT 优于 softmax,列约束防止"赢家通吃"。
  • 完全 training-free:直接用 CLIP 和外部数据库,单卡 3090 即可运行。

局限性 / 可改进方向

  • 依赖 CLIP 嵌入质量,对 CLIP 不擅长的领域可能失效
  • 描述来源固定(Flickr),特定领域覆盖不足
  • 最终用 k-means,对非凸结构可能不够
  • 需预设类别数 \(K\)

相关工作与启发

  • vs SIC: SIC 只用 WordNet 名词,受多义性影响,CAE 加描述消除歧义 +4.2%
  • vs TAC: TAC 跨模态蒸馏结合名词,仍单层级,CAE 引入描述层级
  • vs VIC: VIC 用 MLLM 生成描述但需已知类名,CAE 完全无监督

评分

  • 新颖性: ⭐⭐⭐⭐ 双重语义 + OT 对齐组合新颖,但单组件不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 数据集、完整消融、理论证明
  • 写作质量: ⭐⭐⭐⭐ 多义性动机图例直观
  • 价值: ⭐⭐⭐⭐ ImageNet-1K +4.2% 显著,training-free 实用性强