SSR2-GCD: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery¶

会议: CVPR 2026
arXiv: 2602.19910
代码: 无
领域: 自监督学习 / 多模态VLM / 表示学习
关键词: 广义类别发现, 最大编码率缩减, 模态内对齐, CLIP, 多模态表示学习

一句话总结¶

提出SSR2-GCD框架，通过半监督率缩减(SSR2)损失替代传统对比损失来学习均匀压缩的结构化表示，并发现模态间对齐在多模态GCD中不仅不必要甚至有害，在Stanford Cars和Flowers102上分别领先SOTA 3.1%和6.3%。

背景与动机¶

广义类别发现(GCD)要求模型利用部分已知类别的标签来发现未知类别。近年来多模态方法（CLIP-GCD、TextGCD、GET）开始利用文本模态辅助视觉类别发现，但它们的表示学习存在核心问题：(1) 过度强调模态间对齐（CLIP-style），忽视了模态内表示结构；(2) 传统对比损失导致不平衡压缩——有标签的已知类别被过度压缩（effective rank急剧降低），而无标签的未知类别压缩不足，导致聚类边界模糊。

核心问题¶

如何在多模态GCD中学习到已知和未知类别均匀压缩的结构化表示？以及模态间对齐和模态内对齐在GCD中各自扮演什么角色？

方法详解¶

整体框架¶

三模块流水线：(1) 检索式文本聚合(RTA)为每张图像生成语义丰富的伪文本嵌入；(2) SSR2模块在图像和文本模态内分别施加半监督率缩减损失，学习结构化表示；(3) 双分支分类器分别处理图像/文本嵌入，通过co-teaching对齐伪标签。

关键设计¶

半监督率缩减损失 (SSR2)：基于最大编码率缩减(MCR2)原理设计。\(\mathcal{L}_{SSR^2} = -R(\mathbf{Z}) + R_c^s(\mathbf{Z}, \mathbf{Y}^*) + R_c^u(\mathbf{Z}, \mathbf{Y})\)。第一项最大化全局表示的编码率（让整体分布更分散），后两项分别最小化已知类别（用真实标签）和未知类别（用伪标签）各自的编码率（让类内更紧凑）。关键优势：MCR2理论保证各类别被压缩到等秩的低维子空间，避免对比损失中已知类别过度压缩的问题。
检索式文本聚合 (RTA)：解决TextGCD中CLIP无法处理长文本prompt的局限。不是将多个tag拼接成长文本，而是分别编码每个tag和attribute，然后用加权聚合生成文本嵌入：权重\(\sigma_1 = 1-\alpha\)给最相似的候选，\(\sigma_i = \alpha/(c-1)\)给其余候选（\(\alpha=0.5, c=4\)）。这使得能整合更多候选信息而不受长度限制。
模态间对齐不必要的发现：实验证明，单独使用\(\mathcal{L}_{SSR^2}\)（仅模态内对齐）在6个数据集中5个上优于加入\(\mathcal{L}_{CLIP}\)（模态间对齐）。原因：预训练CLIP已通过检索相似文本隐式建立了模态间关联，显式模态间对齐引入噪声（伪文本与图像的对应并不精确），反而破坏模态内的结构化表示。

损失函数 / 训练策略¶

两阶段训练：Warm-up阶段(10 epochs)用\(\mathcal{L}_{SSR^2}^I + \mathcal{L}_{SSR^2}^T + \mathcal{L}_{cls}^I + \mathcal{L}_{cls}^T\)；Alignment阶段(190 epochs)加入co-teaching损失对齐双分支预测。全程不使用任何模态间对齐损失。SGD优化，学习率0.001，batch size 128，单卡RTX3090。

实验关键数据¶

数据集	指标	SSR2-GCD	TextGCD	GET	提升 vs 最优
Stanford Cars	All ACC	89.2	86.1	78.5	+3.1
Flowers102	All ACC	93.5	87.2	85.5	+6.3
CIFAR-100	All ACC	86.4	85.7	82.1	+0.7
ImageNet-100	All ACC	92.1	88.0	91.7	+0.4
Oxford Pets	All ACC	95.7	93.7	91.1	+2.0
ImageNet-1K	All ACC	66.7	64.8	62.4	+1.9

关键指标：Old/New类别的ACC差距显著缩小——如Stanford Cars上Old 93.1% vs New 87.3%，差距仅5.8%（TextGCD差距7.9%）。

消融实验要点¶

SSR2 vs 对比损失：SSR2在5/6个数据集上优于传统supervised+unsupervised contrastive loss，Flowers102上差距达1.7%
模态间对齐有害：\(\mathcal{L}_{CLIP} + \mathcal{L}_{SSR^2}\)在所有6个数据集上都不如单独\(\mathcal{L}_{SSR^2}\)，且\(\mathcal{L}_{CLIP} + \mathcal{L}_{con}\)也在4/6个数据集上不如\(\mathcal{L}_{con}\)
不平衡压缩量化：effective rank可视化清楚显示对比损失导致Old类别rank急剧降低（过压缩），而SSR2保持Old/New类别rank均匀
RTA有效：使用4个候选tag+attribute比TextGCD的top-3 tag + top-2 attribute更好，且\(\alpha=0.5\)最优
SSR2在单模态也有效：替换GCD和SimGCD中的对比损失为SSR2，也能精细粒度数据集上大幅提升

亮点¶

"模态间对齐在多模态GCD中不必要甚至有害"是一个非常反直觉但经过严格验证的发现——挑战了CLIP-style对比学习的默认假设
SSR2从编码率理论出发解决不平衡压缩问题，理论优雅且实践有效
通过edge ratio \(R_e\)和effective rank两个度量，清晰量化了不同损失函数对表示结构的影响
RTA策略简洁有效：将检索到的多个候选分别编码再加权聚合，巧妙规避了CLIP的token长度限制

局限性 / 可改进方向¶

增加候选数量会增加计算和内存开销（Table B.11显示额外11%内存）
图像和文本模态被同等对待，未探索模态重要性的自适应加权
假设类别数量\(K\)已知或可准确估计，实际应用中类别数估计本身是难题
仅在CLIP-B/16上验证，更大CLIP模型（L/14, H/14）能否进一步受益未知

与相关工作的对比¶

vs TextGCD：TextGCD用CLIP-style模态间对齐+co-teaching，无模态内结构化约束。SSR2-GCD专注模态内结构化表示，在所有数据集上全面领先
vs GET：GET用文本反转网络生成prompt并结合对比损失+CICO模态间对齐。SSR2-GCD证明两种模态间对齐(CLIP loss和CICO)都会损害模态内学习
vs SimGCD/SelEx（单模态）：SSR2损失也能提升这些单模态方法的性能，说明不平衡压缩是普遍问题

启发与关联¶

"模态内对齐比模态间对齐更重要"的发现对所有使用CLIP做下游任务的工作有参考价值——不要盲目加CLIP contrastive loss
MCR2/Rate Reduction原理可以推广到更多半监督/开放世界学习问题中
有效秩(effective rank)作为表示质量的度量，可以用来监控和诊断表示学习中的问题

评分¶

新颖性: ⭐⭐⭐⭐ 将MCR2原理引入GCD并完成semi-supervised扩展是新的，"模态间对齐有害"的发现令人印象深刻
实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、大量损失函数对比、可视化分析、单模态验证，消融极其详尽
写作质量: ⭐⭐⭐⭐ 整体清晰，理论和实验分析深入，但符号较多需仔细阅读
价值: ⭐⭐⭐⭐ 对多模态GCD领域有重要启示，核心发现值得推广到更广泛的VLM应用