CAE: Hierarchical Semantic Alignment for Image Clustering¶

会议: AAAI 2026
arXiv: 2512.00904
代码: 无
领域: 对齐RLHF / 多模态VLM
关键词: image clustering, semantic alignment, optimal transport, caption-level semantics, training-free

一句话总结¶

结合名词级（WordNet）和描述级（Flickr 图片描述）两种互补语义，通过最优传输对齐构建语义空间并自适应融合，实现 training-free 的图像聚类，在 ImageNet-1K 上准确率提升 4.2%。

研究背景与动机¶

领域现状：图像聚类从对比学习、自监督发展到利用外部文本语义引导。SIC 用 WordNet 名词，TAC 结合名词嵌入与图像嵌入。
现有痛点：仅用名词有两个问题——多义性（"crane"可以是鸟或起重机）和细粒度不足（"spaniel"无法区分不同犬种）。
核心矛盾：名词提供高层类别信息但缺乏属性细节，单一语义类型不足以消歧。
本文要解决什么？ 构建更精确的外部语义空间来指导图像聚类。
切入角度：名词（类别）和描述（属性）互补——名词知道"是什么"，描述知道"长什么样"。
核心 idea 一句话：结合 WordNet 名词和 Flickr 描述，通过 OT 对齐构建双重语义空间并自适应融合。

方法详解¶

整体框架¶

输入是 CLIP 编码的图像嵌入、WordNet 名词嵌入、Flickr 描述嵌入。分两步：（1）语义空间构建——筛选相关名词/描述子集，通过 OT 为每张图像计算对应物；（2）自适应融合——原型引导权重机制融合三模态特征，k-means 聚类。

关键设计¶

语义空间构建
做什么：从海量名词/描述中筛选与图像语义相关的子集
核心思路：对图像嵌入做 k-means 得 \(n = N/300\) 个中心，每个中心选 top-\(K\) 最相似名词/描述，取并集
设计动机：空间不能太大（噪声）也不能太小（丢信息）
最优传输构建语义对应物
做什么：为每张图像计算名词对应物 \(\mathbf{x}_i^u\) 和描述对应物 \(\mathbf{x}_i^v\)
核心思路：图像-名词对齐建模为 OT 问题，Sinkhorn-Knopp 求解传输计划 \(\mathbf{T}^u\)，加权组合 \(\mathbf{x}_i^u = \sum_j t_{i,j}^u s_{i,j}^u \mathbf{u}_j\)
设计动机：Theorem 1 证明 OT 列约束确保名词均衡使用，语义误差严格不高于 softmax
自适应语义融合
做什么：样本级动态调整三模态融合权重
核心思路：语义原型 \(\mathbf{x}_i^p = \frac{1}{3}(\mathbf{x}_i + \mathbf{x}_i^u + \mathbf{x}_i^v)\)，各模态与原型的余弦经 softmax 温度缩放得权重
设计动机：不同图像对名词/描述依赖不同，需样本级自适应

损失函数 / 训练策略¶

完全 training-free。OT 用 Sinkhorn 迭代，融合后 k-means。温度 \(\gamma = 0.01\)。

实验关键数据¶

主实验¶

数据集	指标	CAE	之前 SOTA	提升
ImageNet-1K	ACC	76.5%	72.3% (SIC)	+4.2%
ImageNet-1K	ARI	56.8%	53.9%	+2.9%
DTD	ACC	52.3%	47.7%	+4.6%
UCF-101	ACC	71.6%	69.3%	+2.3%

消融实验¶

配置	ImageNet-1K ACC	说明
Full CAE	76.5%	完整模型
w/o Captions	72.8%	去掉描述 -3.7%
w/o Nouns	71.2%	去掉名词 -5.3%
Softmax 替代 OT	74.1%	OT 比 softmax 好 2.4%
简单拼接	74.8%	自适应融合比拼接好 1.7%

关键发现¶

名词和描述互补：去掉任何一个都大幅掉点，描述贡献略大
OT 比 softmax 好 2.4%：列约束确保名词均衡使用
在困难数据集（DTD 纹理 +4.6%、UCF-101 动作 +2.3%）上提升更明显

亮点与洞察¶

双重语义互补：名词类别 + 描述属性将 ImageNet-1K 上图像余弦相似度从 0.73 降到 0.35。
OT 理论优势：Theorem 1 严格证明 OT 优于 softmax，列约束防止"赢家通吃"。
完全 training-free：直接用 CLIP 和外部数据库，单卡 3090 即可运行。

局限性 / 可改进方向¶

依赖 CLIP 嵌入质量，对 CLIP 不擅长的领域可能失效
描述来源固定（Flickr），特定领域覆盖不足
最终用 k-means，对非凸结构可能不够
需预设类别数 \(K\)

评分¶

新颖性: ⭐⭐⭐⭐ 双重语义 + OT 对齐组合新颖，但单组件不算全新
实验充分度: ⭐⭐⭐⭐⭐ 8 数据集、完整消融、理论证明
写作质量: ⭐⭐⭐⭐ 多义性动机图例直观
价值: ⭐⭐⭐⭐ ImageNet-1K +4.2% 显著，training-free 实用性强