SSR2-GCD: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery¶
会议: CVPR 2026
arXiv: 2602.19910
代码: 无
领域: 自监督学习 / 多模态VLM / 表示学习
关键词: 广义类别发现, 最大编码率缩减, 模态内对齐, CLIP, 多模态表示学习
一句话总结¶
提出SSR2-GCD框架,通过半监督率缩减(SSR2)损失替代传统对比损失来学习均匀压缩的结构化表示,并发现模态间对齐在多模态GCD中不仅不必要甚至有害,在Stanford Cars和Flowers102上分别领先SOTA 3.1%和6.3%。
背景与动机¶
广义类别发现(GCD)要求模型利用部分已知类别的标签来发现未知类别。近年来多模态方法(CLIP-GCD、TextGCD、GET)开始利用文本模态辅助视觉类别发现,但它们的表示学习存在核心问题:(1) 过度强调模态间对齐(CLIP-style),忽视了模态内表示结构;(2) 传统对比损失导致不平衡压缩——有标签的已知类别被过度压缩(effective rank急剧降低),而无标签的未知类别压缩不足,导致聚类边界模糊。
核心问题¶
如何在多模态GCD中学习到已知和未知类别均匀压缩的结构化表示?以及模态间对齐和模态内对齐在GCD中各自扮演什么角色?
方法详解¶
整体框架¶
三模块流水线:(1) 检索式文本聚合(RTA)为每张图像生成语义丰富的伪文本嵌入;(2) SSR2模块在图像和文本模态内分别施加半监督率缩减损失,学习结构化表示;(3) 双分支分类器分别处理图像/文本嵌入,通过co-teaching对齐伪标签。
关键设计¶
-
半监督率缩减损失 (SSR2):基于最大编码率缩减(MCR2)原理设计。\(\mathcal{L}_{SSR^2} = -R(\mathbf{Z}) + R_c^s(\mathbf{Z}, \mathbf{Y}^*) + R_c^u(\mathbf{Z}, \mathbf{Y})\)。第一项最大化全局表示的编码率(让整体分布更分散),后两项分别最小化已知类别(用真实标签)和未知类别(用伪标签)各自的编码率(让类内更紧凑)。关键优势:MCR2理论保证各类别被压缩到等秩的低维子空间,避免对比损失中已知类别过度压缩的问题。
-
检索式文本聚合 (RTA):解决TextGCD中CLIP无法处理长文本prompt的局限。不是将多个tag拼接成长文本,而是分别编码每个tag和attribute,然后用加权聚合生成文本嵌入:权重\(\sigma_1 = 1-\alpha\)给最相似的候选,\(\sigma_i = \alpha/(c-1)\)给其余候选(\(\alpha=0.5, c=4\))。这使得能整合更多候选信息而不受长度限制。
-
模态间对齐不必要的发现:实验证明,单独使用\(\mathcal{L}_{SSR^2}\)(仅模态内对齐)在6个数据集中5个上优于加入\(\mathcal{L}_{CLIP}\)(模态间对齐)。原因:预训练CLIP已通过检索相似文本隐式建立了模态间关联,显式模态间对齐引入噪声(伪文本与图像的对应并不精确),反而破坏模态内的结构化表示。
损失函数 / 训练策略¶
两阶段训练:Warm-up阶段(10 epochs)用\(\mathcal{L}_{SSR^2}^I + \mathcal{L}_{SSR^2}^T + \mathcal{L}_{cls}^I + \mathcal{L}_{cls}^T\);Alignment阶段(190 epochs)加入co-teaching损失对齐双分支预测。全程不使用任何模态间对齐损失。SGD优化,学习率0.001,batch size 128,单卡RTX3090。
实验关键数据¶
| 数据集 | 指标 | SSR2-GCD | TextGCD | GET | 提升 vs 最优 |
|---|---|---|---|---|---|
| Stanford Cars | All ACC | 89.2 | 86.1 | 78.5 | +3.1 |
| Flowers102 | All ACC | 93.5 | 87.2 | 85.5 | +6.3 |
| CIFAR-100 | All ACC | 86.4 | 85.7 | 82.1 | +0.7 |
| ImageNet-100 | All ACC | 92.1 | 88.0 | 91.7 | +0.4 |
| Oxford Pets | All ACC | 95.7 | 93.7 | 91.1 | +2.0 |
| ImageNet-1K | All ACC | 66.7 | 64.8 | 62.4 | +1.9 |
关键指标:Old/New类别的ACC差距显著缩小——如Stanford Cars上Old 93.1% vs New 87.3%,差距仅5.8%(TextGCD差距7.9%)。
消融实验要点¶
- SSR2 vs 对比损失:SSR2在5/6个数据集上优于传统supervised+unsupervised contrastive loss,Flowers102上差距达1.7%
- 模态间对齐有害:\(\mathcal{L}_{CLIP} + \mathcal{L}_{SSR^2}\)在所有6个数据集上都不如单独\(\mathcal{L}_{SSR^2}\),且\(\mathcal{L}_{CLIP} + \mathcal{L}_{con}\)也在4/6个数据集上不如\(\mathcal{L}_{con}\)
- 不平衡压缩量化:effective rank可视化清楚显示对比损失导致Old类别rank急剧降低(过压缩),而SSR2保持Old/New类别rank均匀
- RTA有效:使用4个候选tag+attribute比TextGCD的top-3 tag + top-2 attribute更好,且\(\alpha=0.5\)最优
- SSR2在单模态也有效:替换GCD和SimGCD中的对比损失为SSR2,也能精细粒度数据集上大幅提升
亮点¶
- "模态间对齐在多模态GCD中不必要甚至有害"是一个非常反直觉但经过严格验证的发现——挑战了CLIP-style对比学习的默认假设
- SSR2从编码率理论出发解决不平衡压缩问题,理论优雅且实践有效
- 通过edge ratio \(R_e\)和effective rank两个度量,清晰量化了不同损失函数对表示结构的影响
- RTA策略简洁有效:将检索到的多个候选分别编码再加权聚合,巧妙规避了CLIP的token长度限制
局限性 / 可改进方向¶
- 增加候选数量会增加计算和内存开销(Table B.11显示额外11%内存)
- 图像和文本模态被同等对待,未探索模态重要性的自适应加权
- 假设类别数量\(K\)已知或可准确估计,实际应用中类别数估计本身是难题
- 仅在CLIP-B/16上验证,更大CLIP模型(L/14, H/14)能否进一步受益未知
与相关工作的对比¶
- vs TextGCD:TextGCD用CLIP-style模态间对齐+co-teaching,无模态内结构化约束。SSR2-GCD专注模态内结构化表示,在所有数据集上全面领先
- vs GET:GET用文本反转网络生成prompt并结合对比损失+CICO模态间对齐。SSR2-GCD证明两种模态间对齐(CLIP loss和CICO)都会损害模态内学习
- vs SimGCD/SelEx(单模态):SSR2损失也能提升这些单模态方法的性能,说明不平衡压缩是普遍问题
启发与关联¶
- "模态内对齐比模态间对齐更重要"的发现对所有使用CLIP做下游任务的工作有参考价值——不要盲目加CLIP contrastive loss
- MCR2/Rate Reduction原理可以推广到更多半监督/开放世界学习问题中
- 有效秩(effective rank)作为表示质量的度量,可以用来监控和诊断表示学习中的问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 将MCR2原理引入GCD并完成semi-supervised扩展是新的,"模态间对齐有害"的发现令人印象深刻
- 实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、大量损失函数对比、可视化分析、单模态验证,消融极其详尽
- 写作质量: ⭐⭐⭐⭐ 整体清晰,理论和实验分析深入,但符号较多需仔细阅读
- 价值: ⭐⭐⭐⭐ 对多模态GCD领域有重要启示,核心发现值得推广到更广泛的VLM应用