跳转至

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

会议: ICLR 2026
arXiv: 2602.17395
代码: https://github.com/miccunifi/SpectralGCD
领域: 目标检测/类别发现
关键词: Generalized Category Discovery, CLIP, Cross-modal Representation, Spectral Filtering, Knowledge Distillation

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for GCD

一句话总结

提出 SpectralGCD,通过将图像表示为 CLIP 跨模态图像-文本相似度向量(语义概念混合),并用谱滤波自动筛选任务相关概念 + 正反向知识蒸馏保持语义质量,在六个基准上以接近单模态方法的训练开销取得多模态 GCD 新 SOTA。

背景与动机

  1. 广义类别发现(GCD)任务:目标是利用少量已知类的标注数据,在未标注数据中同时识别已知类和发现未知新类,比 Novel Category Discovery 更贴近现实。
  2. 单模态方法过拟合:SimGCD 等基于图像特征训练参数化分类器的方法,在标注稀缺时容易对已知类(Old)过拟合,对新类(New)效果差,因为模型会利用背景等无关视觉线索。
  3. 已有多模态方法效率低:TextGCD 使用 LLM 生成描述 + 冻结教师做图文匹配 + 分模态分类器,GET 训练文本反演网络,两者都将视觉和文本模态独立处理,训练成本大幅增加。
  4. 模态融合不充分:现有多模态方法未能利用 CLIP 天然的跨模态关系,只是将两个模态的特征分别送入各自或共享的分类器。
  5. 概念字典噪声:使用大规模通用字典时不可避免会引入大量与任务无关的概念,污染表示质量。
  6. 效率对实际部署重要:现实场景中需要在新未标注数据到来时反复执行发现过程,因此训练效率是关键约束。

方法详解

核心思路:跨模态充分表示

受概率主题模型启发,将每张图像表示为语义概念的"混合"——对大规模概念字典 \(\bar{\mathcal{C}} = \{c_j\}_{j=1}^M\) 中每个概念,计算 CLIP 图像编码器与文本编码器的余弦相似度:

\[z_{\theta,\phi}(x_i; \bar{\mathcal{C}}) = \left[\frac{f_\theta(x_i)^\top g_\phi(c_j)}{\|f_\theta(x_i)\| \|g_\phi(c_j)\|} \cdot \frac{1}{\tau} \;\middle|\; c_j \in \bar{\mathcal{C}}\right] \in \mathbb{R}^M\]

该跨模态表示类似 Concept Bottleneck Model,每个维度反映概念与图像的关联强度。在此表示上训练线性投射 \(W\)、参数化分类器 \(L_\psi\) 和对比学习 MLP \(\mathcal{M}\),仅微调 CLIP ViT-B/16 最后一个 Transformer block,文本编码器冻结。

谱滤波(Spectral Filtering)

目的:从大规模通用字典中自动选出与任务相关的概念子集,去除噪声。

  1. 用冻结的强教师 CLIP ViT-H/14 计算全数据集的跨模态表示,经 softmax 归一化得到 \(q_i\)
  2. 计算 \(M \times M\) 的跨模态协方差矩阵 \(G\),做特征值分解
  3. 噪声过滤:按累积方差解释比选前 \(k^*\) 个主成分(阈值 \(\beta_e = 0.95\)
  4. 概念重要性选择:计算概念重要性向量 \(s = \sum_{i=1}^{k^*} \lambda_i v_i^2\),按累积重要性阈值 \(\beta_c = 0.99\) 筛选出精简字典 \(\hat{\mathcal{C}}\)

softmax 归一化放大前景概念、抑制共性概念,结合 CLIP 的物体偏好,使主特征向量自然集中在判别性语义上。

正反向知识蒸馏

训练过程中学生图像编码器会与分类器联合优化导致跨模态表示语义漂移,为此引入:

  • 正向蒸馏 \(\mathcal{L}_{fd}\):学生 softmax 分布匹配教师分布,保持语义一致
  • 反向蒸馏 \(\mathcal{L}_{rd}\):教师分布匹配学生分布,惩罚学生在教师认为不相关概念上分配概率

两者结合使学生-教师跨模态表示更紧密对齐。教师表示可预计算,无额外推理开销。

总训练目标

\[\mathcal{L} = \mathcal{L}_{\text{cls}} + \mathcal{L}_{\text{c}} + \mathcal{L}_{\text{kd}}\]

其中 \(\mathcal{L}_{\text{cls}}\) 含有监督/无监督分类损失,\(\mathcal{L}_{\text{c}}\) 为对比损失,\(\mathcal{L}_{\text{kd}}\) 为正反向蒸馏之和。

实验结果

主实验:六大基准对比(Table 1)

方法 字典 CUB All Cars All Aircraft All CIFAR-10 All CIFAR-100 All IN-100 All
SimGCD(单模态) - 60.3 53.8 54.2 97.1 80.1 83.0
GET InversionNet 77.0 78.5 58.9 97.2 82.1 91.7
TextGCD Tags+Attr 76.6 86.9 50.8 98.2 85.7 88.0
SpectralGCD Tags 79.2 89.1 63.0 98.5 86.1 93.4

SpectralGCD 仅用 Tags 字典即全面超越使用 Tags+Attributes 的 TextGCD,且在所有六个基准上超越 GET。

蒸馏消融(Table 2,Stanford Cars)

蒸馏方式 Spearman ρ All 准确率
FD + RD 0.665 89.1
仅 FD 0.639 86.0
仅 RD 0.611 87.5
无蒸馏 0.487 77.4

正反向联合蒸馏将 All 准确率从 77.4% 提升至 89.1%,相关性从 0.487 至 0.665。

训练效率

在 CUB 上,SpectralGCD 谱滤波准备阶段 194 秒,训练阶段耗时与单模态 SimGCD 相当;而 GET 准备阶段需 3121 秒,TextGCD 训练阶段更慢。

亮点

  • 统一跨模态表示:跳出"两模态独立处理"范式,直接在 CLIP 图文相似度上训练分类器,既语义可解释又高效
  • 谱滤波自动选概念:不依赖 LLM 生成描述或人工标注,用协方差矩阵特征分解自动筛选任务相关概念
  • 小学生超越大教师:ViT-B/16 学生在多个基准上超过 ViT-H/14 教师的零样本性能(如 IN-100 +6.6pt)
  • 训练高效:训练时间接近单模态水平,远低于 GET/TextGCD 等多模态方法

局限性

  • 字典选择仍有影响:Tags vs. OpenImages-v7 在不同数据集上表现有差异,最优字典需要领域经验
  • 教师模型质量是瓶颈:强教师(DFN-5B 预训练)能进一步提升性能,但也意味着方法依赖大规模预训练 CLIP
  • 仅在分类基准上验证,尚未应用于检测/分割等下游任务
  • 谱滤波为离线一次性操作,若数据分布持续变化需重新执行

相关工作

  • 单模态 GCD:SimGCD(参数化分类器+自蒸馏)、PromptCAL(视觉提示)、SelEx(层次半监督 k-means)、DebGCD(去偏学习)
  • 多模态 GCD:CLIP-GCD(特征拼接)、TextGCD(LLM 描述+模态独立分类器)、GET(文本反演网络)
  • 概念瓶颈模型:CBM 将输入投射到可解释概念激活上,SpectralGCD 采用类似思路但面向无监督发现
  • 知识蒸馏:正向+反向 KD 来自 Wang et al. 2025b,确保跨模态表示语义一致

评分

  • ⭐⭐⭐⭐ 新颖性:将主题模型思想引入 GCD,跨模态表示+谱滤波是全新组合
  • ⭐⭐⭐⭐ 实验充分度:6 个基准+多组消融+效率对比+字典/教师/学生分析
  • ⭐⭐⭐⭐ 实用性:训练效率高、代码开源、仅需通用字典无需 LLM
  • ⭐⭐⭐ 写作清晰度:数学符号较多但整体逻辑清晰,图示直观

相关论文