跳转至

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

会议: ICLR 2026
arXiv: 2602.17395

代码: GitHub

领域: 类别发现/多模态学习
关键词: 广义类别发现, CLIP, 跨模态表示, 谱过滤, 概念字典, 知识蒸馏

一句话总结

提出SpectralGCD,将图像表示为CLIP概念字典上的语义混合(跨模态相似度向量),通过谱过滤自动选择任务相关概念,配合正反知识蒸馏保持语义质量,在6个基准上以与单模态方法可比的计算代价达到多模态SOTA。

研究背景与动机

广义类别发现(GCD):GCD旨在利用少量已知类的标注子集,从未标注数据中发现新类别。与新类发现(NCD)不同,GCD中未标注数据同时包含已知类(Old)和未知类(New),更贴近现实场景。

单模态方法的局限:以SimGCD为代表的参数化分类器方法直接在视觉特征上训练,易过拟合到旧类的虚假视觉线索(如背景),导致Old/New类性能不平衡——旧类好但新类差。

多模态方法的代价问题:TextGCD和GET引入CLIP文本模态信息显著提升性能,但TextGCD需要LLM生成描述+分别训练图像/文本编码器,GET需训练反转网络——计算代价远高于单模态方法。

独立模态处理的不足:现有多模态GCD方法将视觉和文本模态独立输入到各自分类器,未充分利用CLIP天然的跨模态对齐能力。

概率主题模型的启发:类比LDA中「文档=主题的混合」,本文提出「图像=语义概念的混合」——用CLIP图文相似度直接作为统一的跨模态表示。

实际部署需求:现实中需随新数据到来周期性重跑发现流程,因此计算效率至关重要,多模态方法的高代价限制了其实用性。

方法详解

整体框架:两阶段流程

SpectralGCD包含两个阶段:(1) 谱过滤阶段——用冻结的强教师模型自动从大概念字典中筛选任务相关概念;(2) 训练阶段——在过滤后的跨模态表示上训练参数化分类器,配合正反蒸馏保持语义质量。

关键设计1:跨模态充分表示

对每张图像 \(x_i\) 和概念字典 \(\bar{\mathcal{C}} = \{c_j\}_{j=1}^M\),计算CLIP图文余弦相似度:

\[z_{\theta,\phi}(x_i; \bar{\mathcal{C}}) = \left[\frac{f_\theta(x_i)^\top g_\phi(c_j)}{\|f_\theta(x_i)\| \|g_\phi(c_j)\|} \cdot \frac{1}{\tau} \;\Big|\; c_j \in \bar{\mathcal{C}}\right] \in \mathbb{R}^M\]

该表示是充分表示的近似——若类别仅依赖语义概念,则 \(p(y|x) = p(y|z(x;\mathcal{C}))\),基于此训练的分类器无需原始图像即可做最优预测。通过线性投影 \(u_i = W^\top z_{\theta,\phi}(x_i; \bar{\mathcal{C}})\) 后送入分类器 \(p_i = L_\psi(u_i)\)

关键设计2:谱过滤(Spectral Filtering)

用冻结教师(ViT-H/14)计算全数据集的跨模态表示,softmax归一化后构建协方差矩阵:

\[G = \frac{1}{N-1} \sum_{i=1}^N (q_i - \mu)(q_i - \mu)^\top \in \mathbb{R}^{M \times M}\]

特征值分解 \(G\) 后: - 噪声过滤:保留累积解释方差达到 \(\beta_e\) 的前 \(k^*\) 个主成分 - 概念重要性选择:计算概念重要性向量 \(s = \sum_{i=1}^{k^*} \lambda_i v_i^2\),保留累积重要性达到 \(\beta_c\) 的概念子集 \(\hat{\mathcal{C}}\)

核心直觉:softmax放大前景概念、抑制背景噪声,加上CLIP的物体偏好,使协方差矩阵的主特征向量自然集中在任务相关的物体语义上。类似LSA中的词频加权。

关键设计3:正反知识蒸馏

训练中学生的跨模态表示会因联合优化而语义漂移。用冻结教师的表示进行双向蒸馏:

\[\mathcal{L}_{\text{kd}} = \underbrace{-\frac{1}{|\mathcal{B}|}\sum_{i \in \mathcal{B}} \sigma(\hat{z}_i^*) \log \sigma(\hat{z}_i)}_{\text{前向蒸馏}} + \underbrace{-\frac{1}{|\mathcal{B}|}\sum_{i \in \mathcal{B}} \sigma(\hat{z}_i) \log \sigma(\hat{z}_i^*)}_{\text{反向蒸馏}}\]

前向蒸馏让学生对齐教师分布,反向蒸馏惩罚学生在教师认为不相关概念上的概率质量。两者结合实现更紧密的师生对齐。教师表示可预计算→训练高效。

总损失函数

\[\mathcal{L} = \mathcal{L}_{\text{cls}} + \mathcal{L}_{\text{c}} + \mathcal{L}_{\text{kd}}\]

其中 \(\mathcal{L}_{\text{cls}}\) 包含有监督/无监督分类损失,\(\mathcal{L}_{\text{c}}\) 包含有监督/无监督对比损失。仅微调ViT-B/16的最后一个transformer block。

实验结果

表1:与SOTA方法的全面对比(准确率%)

方法 类型 CUB All CUB New Cars All Cars New Aircraft All IN-100 All
SimGCD 单模态 60.3 57.7 53.8 45.0 54.2 83.0
SelEx 单模态 73.6 72.8 58.5 50.3 57.1 83.1
DebGCD 单模态 66.3 63.5 65.3 57.4 61.7 85.9
GET 多模态 77.0 76.4 78.5 74.5 58.9 91.7
TextGCD 多模态 76.6 74.7 86.9 86.7 50.8 88.0
SpectralGCD 多模态 79.2 78.5 89.1 87.4 63.0 93.4

表2:蒸馏方式消融(Stanford Cars)

蒸馏损失 Spearman ρ All准确率
FD + RD 0.665±0.09 89.1
仅FD 0.639±0.11 86.0
仅RD 0.611±0.11 87.5
无蒸馏 0.487±0.15 77.4

表3:字典选择鲁棒性(Stanford Cars / CIFAR-100)

方法 字典 Cars All CIFAR100 All
TextGCD* OpenImagesV7 78.1 82.6
TextGCD* Tags 86.2 84.3
SpectralGCD OpenImagesV7 85.8 84.9
SpectralGCD Tags 89.1 86.1

关键发现

  • 跨模态表示显著提升新类性能:相比纯视觉特征,跨模态表示在New类上大幅提升,有效缓解对旧类虚假线索的过拟合。SpectralGCD在CUB上New类78.5%,大幅超越SimGCD的57.7%。

  • 小学生超越大教师:尽管学生模型(ViT-B/16)远小于教师(ViT-H/14),在多个基准上SpectralGCD超越教师的零样本性能(如ImageNet-100上+6.6个点),说明方法贡献大于模型规模。

  • 谱过滤对细粒度数据集特别关键:在Stanford Cars上(196类,选出200-450个概念),谱过滤带来显著提升;在CIFAR-100上(100类,选出1000-4000概念)效果相对温和。

  • 正反蒸馏缺一不可:无蒸馏时All准确率仅77.4%,加入FD+RD后提升到89.1%。Spearman相关性从0.487升到0.665,说明蒸馏有效保持了师生表示的一致性。

  • 训练效率媲美单模态:在CUB上,SpectralGCD的训练时间与单模态SimGCD可比,远低于GET(3121秒准备)和TextGCD。

亮点与洞察

  • 「图像=概念混合」的类比优美:从概率主题模型到视觉概念表示的迁移自然合理,提供了理论动机。

  • 统一跨模态表示vs独立模态:不分别处理视觉/文本再融合,而是直接用图文相似度作为统一表示——简洁有效。

  • 谱过滤的信息论基础:协方差矩阵的特征值分解有PCA/LSA的解释——不是黑箱概念选择,而是有数学保证的信息筛选。

  • 效率与性能兼得:教师的表示预计算一次、文本编码器冻结、仅微调最后一个transformer block——实际部署友好。

局限性

  • 对教师模型和字典的依赖:SpectralGCD的性能受教师质量和概念字典覆盖范围影响。若教师缺乏领域知识或字典未覆盖关键概念,性能会下降。表4显示使用ViT-B/16作教师时CUB All仅72.7%,远低于用ViT-H/14的79.2%。

  • 概念字典非图像特定:当前使用数据集级别的全局概念字典,未针对每张图像做自适应——可能遗漏对特定图像重要但全局不显著的概念。

  • 类别数需已知:与大多数GCD方法一样,需要预设类别数K,在实际应用中可能难以确定。

  • 谱过滤的阈值敏感性:虽然默认 \(\beta_e=0.95, \beta_c=0.99\) 在多数数据集上表现良好,但最优值可能因数据集而异。

相关工作对比

  • vs TextGCD:TextGCD(Tags+Attributes)在Stanford Cars上All 86.9%,SpectralGCD仅用Tags达89.1%(+2.2)。TextGCD需要额外LLM生成Attributes描述且分别训练图像/文本分类器,SpectralGCD用统一跨模态表示更简洁高效。

  • vs GET:GET通过反转网络将图像特征转换为文本token再提取文本特征,准备阶段需3121秒训练反转网络。SpectralGCD的谱过滤仅需194秒,且在ImageNet-100上超越GET 1.7个点(93.4 vs 91.7)。

  • vs SimGCD:SimGCD是单模态参数化分类器的典范,训练效率高但受限于纯视觉表示。SpectralGCD在保持相近训练效率的同时,通过跨模态表示在New类上大幅提升(CUB: 78.5 vs 57.7)。

评分

  • 新颖性: ⭐⭐⭐⭐ 跨模态概念混合表示+谱过滤的组合新颖,主题模型到视觉GCD的类比有创新性
  • 实验充分度: ⭐⭐⭐⭐⭐ 6个基准×多baseline×效率分析×大量消融(蒸馏/字典/教师/学生/阈值/数据分割)
  • 写作质量: ⭐⭐⭐⭐ 理论动机从充分表示切入清晰,方法描述结构化,图示直观
  • 价值: ⭐⭐⭐⭐ 同时推进GCD性能和效率前沿,对多模态表示学习和概念选择有广泛启示

相关论文