Learning Textual Prompts for Open-World Semi-Supervised Learning¶

会议: CVPR 2025
arXiv: 无
代码: 无
领域: NLP理解 / 半监督学习
关键词: 开放世界半监督学习, 文本提示学习, 图文对齐, 细粒度识别, 噪声抑制

一句话总结¶

本文提出了一种针对开放世界半监督学习（OWSSL）的新方法，通过全局-局部文本提示学习策略增强图文对齐效果，并设计前向-反向策略降低无标签样本中图文匹配的噪声，在多个细粒度数据集上显著超越SOTA。

研究背景与动机¶

领域现状：传统半监督学习在闭集假设下取得了显著成功——即假设未标注数据与标注数据来自相同的类别集合。然而现实世界是开放的，未标注数据中往往包含标注集中未见过的新类别。为此，研究者提出了开放世界半监督学习（OWSSL），要求模型既能准确识别已知类别，又能发现和聚类未知类别。

现有痛点：(1) 视觉相似的细粒度类别难以区分——例如不同品种的鸟或不同型号的飞机，仅靠视觉特征很难可靠分类。(2) 已有方法尝试引入文本信息来辅助区分视觉相似类，但图像与文本之间的对齐效果不佳，导致文本信息的引入对性能提升有限。(3) 无标签样本的伪标签存在噪声，将这些噪声标签用于图文匹配会进一步恶化对齐质量。

核心矛盾：OWSSL需要同时处理已知类识别和未知类发现两个目标，文本信息理论上能提供判别性语义特征来区分视觉相似类，但现有方法无法有效实现图文对齐，特别是在存在标签噪声的无标签数据上。

本文目标 (1) 如何更有效地对齐图像和文本以提取跨类别的判别性特征？(2) 如何减少无标签样本在图文匹配过程中引入的噪声？

切入角度：作者从提示学习（prompt learning）和噪声处理两个角度切入。提示学习方面，设计全局提示捕捉跨类别共性，局部提示关注类别特异性；噪声处理方面，用前向预测+反向验证的双向策略来过滤不可靠的图文匹配。

核心 idea：通过全局-局部双层提示学习改进图文对齐质量，结合前向-反向双向策略抑制无标签匹配噪声，提升开放世界半监督学习的细粒度判别能力。

方法详解¶

整体框架¶

基于CLIP等预训练视觉语言模型构建。输入包含少量标注图像和大量无标注图像。整体流程为：图像通过视觉编码器提取特征 → 文本通过文本编码器（带可学习提示）生成类别文本嵌入 → 全局-局部提示策略增强图文对齐 → 前向-反向策略为无标签样本生成可靠的伪标签 → 联合已知类分类和未知类聚类进行优化。

关键设计¶

全局-局部文本提示学习策略（Global-and-Local Textual Prompt Learning）:
- 功能：增强图像与文本之间的对齐效果，捕捉全局共性和类别特异性
- 核心思路：设计两层可学习的文本提示。全局提示（Global Prompt）是所有类别共享的上下文token，捕捉数据集层面的共性特征，帮助模型理解整体任务。局部提示（Local Prompt）是每个类别独有的可学习token，编码该类别的特异性语义信息（如特定鸟类的颈部颜色、喙部形状等区分性特征）。两个层级的提示拼接后送入文本编码器，生成更精细的类别文本表示
- 设计动机：标准的CLIP使用固定模板如"a photo of a [class]"，缺乏对细粒度差异的表达能力。全局提示学习通用的领域知识，局部提示学习类内独特特征，二者结合显著提高了细粒度类别间的可区分性
前向-反向策略（Forward-and-Backward Strategy）:
- 功能：减少无标签样本在图文匹配过程中产生的噪声
- 核心思路：分为前向和反向两个步骤。前向步骤：对无标签图像使用当前模型预测类别（伪标签），选取预测置信度高于阈值的样本参与训练。反向步骤：对前向步骤选出的样本进行反向验证——用文本特征去检索图像库，检查通过文本检索回来的高相似度图像集合是否与前向预测一致。只有前向和反向双重验证都通过的样本才被认为是可靠匹配
- 设计动机：仅靠图像到文本的前向匹配容易产生大量噪声标签，特别是在细粒度类别和未知类别混杂的场景下。反向验证相当于引入了从文本到图像的冗余校验，大幅降低噪声率
已知-未知类联合学习:
- 功能：同时优化已知类分类和未知类发现
- 核心思路：对已知类使用标注数据的监督分类损失和通过前向-反向策略筛选的高置信度无标签数据的伪标签损失。对未知类使用对比学习框架来聚类相似的无标签样本。文本提示同时为已知类和未知类服务——已知类的提示通过监督信号直接学习，未知类的提示通过聚类中心与文本的对齐间接学习
- 设计动机：开放世界的核心挑战是同时做好分类和发现两件事

损失函数 / 训练策略¶

综合使用多个损失函数：已知类的交叉熵分类损失、无标签样本的伪标签损失（经前向-反向策略过滤后）、图文对齐对比损失、以及未知类的聚类损失。训练分阶段进行：先训练文本提示以建立良好的图文对齐基础，再联合优化所有组件。

实验关键数据¶

主实验¶

在多个细粒度数据集上的实验（CUB-200鸟类、Stanford Cars、FGVC Aircraft等）：

方法	CUB-200 已知类	CUB-200 未知类	CUB-200 Overall	FGVC Overall
ORCA	基线	基线	基线	基线
PromptCAL	中等	中等	中等	中等
本文方法	最优	最优	最优	最优

论文在多个细粒度数据集上均实现了显著的性能提升。

消融实验¶

组件	已知类 Acc	未知类 Acc	Overall Acc
基线（无文本提示）	较低	较低	较低
+全局提示	提升	提升	提升
+全局+局部提示	显著提升	显著提升	显著提升
+前向-反向策略	最优	最优	最优

关键发现¶

全局-局部组合提示显著优于仅全局提示，局部提示为细粒度类别区分提供了关键的类特异性信息
前向-反向双向验证比仅用前向伪标签显著降低噪声率
文本信息在细粒度数据集上带来的提升最为显著

亮点与洞察¶

全局-局部提示分工明确：全局提示建立领域理解基础，局部提示提供类别区分能力
前向-反向策略思路简洁有效：用双向交叉验证实现可靠的噪声过滤
在细粒度场景下验证：这是文本信息最有价值的场景，比在粗粒度分类上验证更有说服力

局限与展望¶

依赖CLIP等预训练模型，对特殊领域可能效果下降
局部提示数量等于已知类数量，未知类没有显式提示
前向-反向策略的阈值需要手动设定
可以探索利用LLM生成更丰富的类别描述来增强提示

评分¶

新颖性: ⭐⭐⭐（全局-局部提示和前向-反向策略的组合有新意）
实验充分度: ⭐⭐⭐⭐（多个细粒度数据集和详细消融）
写作质量: ⭐⭐⭐
价值: ⭐⭐⭐（OWSSL是有前景的方向）