跳转至

SSR2-GCD: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

会议: CVPR 2026
arXiv: 2602.19910
代码: 无
领域: 自监督学习 / 多模态VLM / 表示学习
关键词: 广义类别发现, 最大编码率缩减, 模态内对齐, CLIP, 多模态表示学习

一句话总结

提出SSR2-GCD框架,通过半监督率缩减(SSR2)损失替代传统对比损失来学习均匀压缩的结构化表示,并发现模态间对齐在多模态GCD中不仅不必要甚至有害,在Stanford Cars和Flowers102上分别领先SOTA 3.1%和6.3%。

背景与动机

广义类别发现(GCD)要求模型利用部分已知类别的标签来发现未知类别。近年来多模态方法(CLIP-GCD、TextGCD、GET)开始利用文本模态辅助视觉类别发现,但它们的表示学习存在核心问题:(1) 过度强调模态间对齐(CLIP-style),忽视了模态内表示结构;(2) 传统对比损失导致不平衡压缩——有标签的已知类别被过度压缩(effective rank急剧降低),而无标签的未知类别压缩不足,导致聚类边界模糊。

核心问题

如何在多模态GCD中学习到已知和未知类别均匀压缩的结构化表示?以及模态间对齐和模态内对齐在GCD中各自扮演什么角色?

方法详解

整体框架

三模块流水线:(1) 检索式文本聚合(RTA)为每张图像生成语义丰富的伪文本嵌入;(2) SSR2模块在图像和文本模态内分别施加半监督率缩减损失,学习结构化表示;(3) 双分支分类器分别处理图像/文本嵌入,通过co-teaching对齐伪标签。

关键设计

  1. 半监督率缩减损失 (SSR2):基于最大编码率缩减(MCR2)原理设计。\(\mathcal{L}_{SSR^2} = -R(\mathbf{Z}) + R_c^s(\mathbf{Z}, \mathbf{Y}^*) + R_c^u(\mathbf{Z}, \mathbf{Y})\)。第一项最大化全局表示的编码率(让整体分布更分散),后两项分别最小化已知类别(用真实标签)和未知类别(用伪标签)各自的编码率(让类内更紧凑)。关键优势:MCR2理论保证各类别被压缩到等秩的低维子空间,避免对比损失中已知类别过度压缩的问题。

  2. 检索式文本聚合 (RTA):解决TextGCD中CLIP无法处理长文本prompt的局限。不是将多个tag拼接成长文本,而是分别编码每个tag和attribute,然后用加权聚合生成文本嵌入:权重\(\sigma_1 = 1-\alpha\)给最相似的候选,\(\sigma_i = \alpha/(c-1)\)给其余候选(\(\alpha=0.5, c=4\))。这使得能整合更多候选信息而不受长度限制。

  3. 模态间对齐不必要的发现:实验证明,单独使用\(\mathcal{L}_{SSR^2}\)(仅模态内对齐)在6个数据集中5个上优于加入\(\mathcal{L}_{CLIP}\)(模态间对齐)。原因:预训练CLIP已通过检索相似文本隐式建立了模态间关联,显式模态间对齐引入噪声(伪文本与图像的对应并不精确),反而破坏模态内的结构化表示。

损失函数 / 训练策略

两阶段训练:Warm-up阶段(10 epochs)用\(\mathcal{L}_{SSR^2}^I + \mathcal{L}_{SSR^2}^T + \mathcal{L}_{cls}^I + \mathcal{L}_{cls}^T\);Alignment阶段(190 epochs)加入co-teaching损失对齐双分支预测。全程不使用任何模态间对齐损失。SGD优化,学习率0.001,batch size 128,单卡RTX3090。

实验关键数据

数据集 指标 SSR2-GCD TextGCD GET 提升 vs 最优
Stanford Cars All ACC 89.2 86.1 78.5 +3.1
Flowers102 All ACC 93.5 87.2 85.5 +6.3
CIFAR-100 All ACC 86.4 85.7 82.1 +0.7
ImageNet-100 All ACC 92.1 88.0 91.7 +0.4
Oxford Pets All ACC 95.7 93.7 91.1 +2.0
ImageNet-1K All ACC 66.7 64.8 62.4 +1.9

关键指标:Old/New类别的ACC差距显著缩小——如Stanford Cars上Old 93.1% vs New 87.3%,差距仅5.8%(TextGCD差距7.9%)。

消融实验要点

  • SSR2 vs 对比损失:SSR2在5/6个数据集上优于传统supervised+unsupervised contrastive loss,Flowers102上差距达1.7%
  • 模态间对齐有害\(\mathcal{L}_{CLIP} + \mathcal{L}_{SSR^2}\)在所有6个数据集上都不如单独\(\mathcal{L}_{SSR^2}\),且\(\mathcal{L}_{CLIP} + \mathcal{L}_{con}\)也在4/6个数据集上不如\(\mathcal{L}_{con}\)
  • 不平衡压缩量化:effective rank可视化清楚显示对比损失导致Old类别rank急剧降低(过压缩),而SSR2保持Old/New类别rank均匀
  • RTA有效:使用4个候选tag+attribute比TextGCD的top-3 tag + top-2 attribute更好,且\(\alpha=0.5\)最优
  • SSR2在单模态也有效:替换GCD和SimGCD中的对比损失为SSR2,也能精细粒度数据集上大幅提升

亮点

  • "模态间对齐在多模态GCD中不必要甚至有害"是一个非常反直觉但经过严格验证的发现——挑战了CLIP-style对比学习的默认假设
  • SSR2从编码率理论出发解决不平衡压缩问题,理论优雅且实践有效
  • 通过edge ratio \(R_e\)和effective rank两个度量,清晰量化了不同损失函数对表示结构的影响
  • RTA策略简洁有效:将检索到的多个候选分别编码再加权聚合,巧妙规避了CLIP的token长度限制

局限性 / 可改进方向

  • 增加候选数量会增加计算和内存开销(Table B.11显示额外11%内存)
  • 图像和文本模态被同等对待,未探索模态重要性的自适应加权
  • 假设类别数量\(K\)已知或可准确估计,实际应用中类别数估计本身是难题
  • 仅在CLIP-B/16上验证,更大CLIP模型(L/14, H/14)能否进一步受益未知

与相关工作的对比

  • vs TextGCD:TextGCD用CLIP-style模态间对齐+co-teaching,无模态内结构化约束。SSR2-GCD专注模态内结构化表示,在所有数据集上全面领先
  • vs GET:GET用文本反转网络生成prompt并结合对比损失+CICO模态间对齐。SSR2-GCD证明两种模态间对齐(CLIP loss和CICO)都会损害模态内学习
  • vs SimGCD/SelEx(单模态):SSR2损失也能提升这些单模态方法的性能,说明不平衡压缩是普遍问题

启发与关联

  • "模态内对齐比模态间对齐更重要"的发现对所有使用CLIP做下游任务的工作有参考价值——不要盲目加CLIP contrastive loss
  • MCR2/Rate Reduction原理可以推广到更多半监督/开放世界学习问题中
  • 有效秩(effective rank)作为表示质量的度量,可以用来监控和诊断表示学习中的问题

评分

  • 新颖性: ⭐⭐⭐⭐ 将MCR2原理引入GCD并完成semi-supervised扩展是新的,"模态间对齐有害"的发现令人印象深刻
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、大量损失函数对比、可视化分析、单模态验证,消融极其详尽
  • 写作质量: ⭐⭐⭐⭐ 整体清晰,理论和实验分析深入,但符号较多需仔细阅读
  • 价值: ⭐⭐⭐⭐ 对多模态GCD领域有重要启示,核心发现值得推广到更广泛的VLM应用