Enhancing Target-unspecific Tasks through a Features Matrix¶

会议: ICML 2025
arXiv: 2505.03414
代码: 未公开
领域: 多模态/视觉语言模型 (VLM), Prompt Learning
关键词: CLIP, Features Matrix, Prompt Learning, Base-to-Novel Generalization, 泛化能力

一句话总结¶

提出 Features Matrix (FM) 方法，利用多个手工 prompt 模板从冻结 CLIP 中提取通用知识构成特征矩阵，通过对齐 unexpected features 与微调视觉特征来增强模型在目标无关任务（如 base-to-novel 泛化、跨数据集泛化、域泛化）上的表现。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：近年来 CLIP 等大规模视觉语言模型在零样本推理上取得了显著成功。Prompt learning 方法（如 CoOp、CoCoOp）通过学习可训练的 prompt 嵌入来适配下游任务，在 base 类上效果好，但在 novel 类上往往不如手工 prompt 的零样本 CLIP。

核心问题在于：prompt tuning 容易过拟合于下游数据分布，导致模型丢失预训练时获得的通用泛化能力。 例如 CoOp 在 novel 类上的准确率仅 67.96%，远低于零样本 CLIP 的 74.22%。即使 KgCoOp 等方法引入了正则化约束，其 novel 类表现（72.70%）仍低于零样本 CLIP。

作者认为原因在于：单一手工 prompt 正则化无法充分挖掘和利用 CLIP 中多样的语义通用知识。

方法详解¶

整体框架¶

FM 方法是一个通用的即插即用模块，可以兼容 CoOp、CoCoOp、MaPLe、PromptSRC 等现有 prompt learning 框架。

核心思路： 1. 使用 60 个不同的手工 prompt 模板（如 "a photo of one", "a picture of a", "a drawing of a" 等）输入冻结 CLIP 的文本编码器 2. 对每个类别，从所有模板中提取文本特征，形成一个 Features Matrix 3. 计算微调后的视觉特征与特征矩阵中各特征的匹配分数，形成 Scores Matrix

关键设计：Unexpected Features¶

从 Scores Matrix 中识别两类 "unexpected" 特征：

Designated unexpected features \(F^k_{un}\)：当前类（标签 \(k\)）的指定特征中，余弦相似度分数排名靠后的（low-\(\beta\)）特征
Non-designated unexpected features \(F^{\hat{k}}_{un}\)：非当前类特征中，余弦相似度分数排名靠前的（top-\(\beta\)）特征

这些 unexpected features 代表了模型容易混淆或忽略的通用语义信息。

损失函数¶

对比损失 \(\mathcal{L}_{CL}\)：

\[\mathcal{L}_{CL} = -\log \frac{\exp\{\cos(t_k, v^{tun})\}}{\exp\{\cos(t_k, v^{tun})\} + \exp\{\cos(t_{\hat{k}}, v^{tun})\}}\]

其中 \(t_k \in F^k_{un}\)，\(t_{\hat{k}} \in F^{\hat{k}}_{un}\)。

总损失为：

\[\mathcal{L}_{total} = \mathcal{L}_{CE} + \gamma \mathcal{L}_{CL}\]

\(\mathcal{L}_{CE}\) 为标准的两模态对齐交叉熵损失，\(\gamma\) 为超参数。

实验关键数据¶

主实验：Base-to-Novel 泛化（11 数据集平均）¶

方法	Base	Novel	HM
CoOp	82.69	63.22	71.66
CoOp+DePT	83.66	71.82	77.29
CoOp+Ours	81.15	74.66	77.79
MaPLe	82.28	75.14	78.55
MaPLe+DePT	84.85	74.82	79.52
MaPLe+Ours	84.45	76.53	80.32
PromptSRC	84.26	76.10	79.97
PromptSRC+Ours	85.70	77.35	81.32

关键发现¶

FM 在 novel 类上提升显著：CoOp+FM 的 novel 准确率从 63.22% 提升到 74.66%，首次超越 CLIP 零样本水平
FM 与 MaPLe、PromptSRC 结合后，在所有代表性 baseline 上一致超越 DePT（CVPR2024）
在 ImageNet 上，PromptSRC+FM 达到 75.07% HM，超越所有对比方法

亮点与洞察¶

即插即用设计：FM 作为通用模块可以无缝集成到现有文本或多模态 prompt learning 框架中
重新挖掘手工 prompt 的价值：利用多个手工 prompt 模板从冻结 CLIP 中深层挖掘语义信息
Unexpected features 的概念巧妙：通过关注模型容易混淆的特征对进行对比学习，有效保留通用知识
特征矩阵无需训练：FM 在预训练 CLIP 上一次性提取，不增加额外训练开销

局限与展望¶

FM 使用 60 个 prompt 模板会增加推理时的计算开销（特征矩阵预计算可缓解）
\(\beta\) 和 \(\gamma\) 等超参数需要调优
在某些 base 类上可能牺牲少量精度以换取 novel 类泛化
仅在分类场景下验证，对于检测/分割等下游任务的效果未知
特征矩阵的大小随类别数和模板数线性增长

评分¶

⭐⭐⭐⭐ — 方法简单有效，实验全面覆盖 11 个数据集和多个框架，novel 类改进显著。核心 idea 清晰易理解，但技术新颖性相对有限。