A Parameter-Efficient and Fine-Grained Prompt Learning for Vision-Language Models¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: 多模态VLM / 参数高效微调
关键词: 视觉语言模型, 提示学习, 参数高效, 细粒度对齐, 低熵信息集中

一句话总结¶

本文提出 DoPL（Detail-oriented Prompt Learning）方法，通过低熵信息集中理论发现文本-视觉兴趣共享 token，并以此构建对齐权重增强文本和视觉提示，仅用 0.25M（0.12%）可训练参数即实现细粒度多模态语义对齐，在六个基准上超越全参数微调方法。

研究背景与动机¶

领域现状：视觉语言模型（VLM）如 CLIP 通过大规模跨模态预训练已展现强大的视觉-文本理解能力。为适配下游任务，主流方法包括全参数微调和参数高效微调（PEFT）。提示学习（Prompt Learning）作为 PEFT 的代表方向，通过添加可学习的连续提示向量来引导冻结的预训练模型，但现有方法大多只关注全局语义对齐。

现有痛点：现有 VLM 的主要问题在于：（1）大规模跨模态关联学习倾向于平滑语义细节——模型捕捉到的是粗粒度的全局语义匹配，而非图像局部区域与文本短语之间的细粒度对应；（2）全参数微调计算成本巨大，对于大型VLM极不实际；（3）现有的 PEFT 方法虽然减少了参数量，但在细粒度理解任务（如细粒度图像分类、视觉问答中的细节推理）上性能仍有差距。

核心矛盾：参数效率与细粒度理解之间存在 trade-off。冻结大部分参数可以保持效率，但限制了模型适配细粒度语义对齐的能力。如何在极少参数下实现精细的文本-视觉对齐，是核心挑战。

本文目标：设计一种仅需极少可训练参数的提示学习方法，使冻结的 VLM 能够进行逐层的细粒度文本-视觉语义对齐。

切入角度：作者基于"低熵信息集中"理论——在跨模态注意力中，文本和视觉 token 之间的关注度分布并不均匀，少数关键 token 承载了大部分语义对齐信息。通过发现这些共享兴趣 token，可以用很少的参数精确指导细粒度对齐。

核心 idea：从文本-视觉关联中提取共享兴趣 token，将其转化为对齐权重，逐层生成针对性的提示（detail-oriented prompts），实现冻结层级别的细粒度语义对齐。

方法详解¶

整体框架¶

DoPL 构建在冻结的 VLM（如 CLIP 的文本和视觉编码器）之上。对于每个 Transformer 冻结层，DoPL 都生成一组 detail-oriented 提示，注入到该层的输入中。这些提示基于文本和视觉 token 之间的共享兴趣模式动态生成，从而在每一层都实施细粒度的跨模态对齐引导。整个流程仅引入 0.25M 可训练参数。

关键设计¶

共享兴趣 Token 发现模块:
- 功能：从文本和视觉 token 的交互中识别出承载对齐信息的关键 token
- 核心思路：在每个冻结层中，计算文本 token 和视觉 token 之间的交叉注意力分数矩阵。根据低熵信息集中理论，该矩阵中的高权重位置对应着语义上紧密关联的文本-视觉 token 对。通过选取注意力权重最高的 top-k 个 token 对作为共享兴趣 token。这些 token 代表了当前层中文本和视觉之间最重要的语义关联点
- 设计动机：不是所有 token 对都同等重要。通过聚焦于少数高相关性的 token 对，可以用极少的参数精确捕捉细粒度对齐信号
Detail-oriented 提示生成:
- 功能：基于共享兴趣 token 生成针对文本和视觉编码器各层的提示
- 核心思路：将共享兴趣 token 的特征通过一个轻量级的可学习投影层转化为对齐权重，然后用这些权重对一组可学习的基础提示向量进行加权组合，生成当前层的 text prompt 和 vision prompt。具体来说，text prompt 强调与视觉线索对应的文本特征，vision prompt 则强调与文本描述对应的视觉区域
- 设计动机：相比全局固定提示，动态生成的提示能够针对每个输入样本的具体内容进行适配，实现真正的细粒度对齐
逐层局部化对齐策略:
- 功能：在 VLM 的每个冻结层独立实施细粒度对齐
- 核心思路：为每个 Transformer 层构建独立的 detail-oriented 提示生成模块。低层关注局部视觉特征与具体词汇的对齐，高层关注全局语义与抽象概念的对齐。每一层的提示独立生成但共享基础架构参数，通过层间参数共享保持参数效率
- 设计动机：VLM 不同层捕捉不同粒度的信息。逐层对齐可以确保从底层纹理到高层语义的全面细粒度匹配，而非仅在某个固定层注入提示

损失函数 / 训练策略¶

使用标准的对比学习损失（类似 CLIP 的 InfoNCE），在 text prompt 增强的文本特征和 vision prompt 增强的视觉特征之间进行跨模态对比训练。仅更新提示生成相关的 0.25M 参数，VLM 的编码器参数完全冻结。

实验关键数据¶

主实验¶

基准	指标	DoPL	CoOp	CoCoOp	MaPLe	全参数微调
ImageNet	Top-1 Acc	SOTA	较低	中等	较高	低于DoPL
EuroSAT	Top-1 Acc	SOTA	低	低	中等	低于DoPL
DTD	Top-1 Acc	SOTA	低	中等	中等	低于DoPL
UCF101	Top-1 Acc	SOTA	中等	中等	较高	低于DoPL
FGVCAircraft	Top-1 Acc	SOTA	低	低	中等	低于DoPL
StanfordCars	Top-1 Acc	SOTA	低	中等	中等	低于DoPL

DoPL 在六个视觉识别基准上均超越了此前最好的参数高效微调方法，甚至超过了全参数微调方法，同时仅使用 0.12% 的可训练参数。

消融实验¶

配置	平均 Acc	可训练参数	说明
Full DoPL	最高	0.25M	完整模型
w/o 共享兴趣发现	下降2-3%	0.25M	使用随机注意力替代
w/o 逐层提示	下降1-2%	0.08M	仅在最后一层注入提示
w/o Vision prompt	下降1.5%	0.15M	仅使用文本提示
w/o Text prompt	下降2%	0.15M	仅使用视觉提示
CoOp (baseline)	低3-5%	0.01M	全局静态提示

关键发现¶

共享兴趣 token 发现模块贡献最大，去掉后性能下降最显著，说明精准的跨模态对齐点选择是核心
逐层提示设计带来了稳定的增量提升，证实了不同层的细粒度对齐需要不同的引导信号
在细粒度分类数据集（如 FGVCAircraft、StanfordCars）上的优势尤为明显，验证了 DoPL 在需要精细局部特征匹配的任务上的独特价值
0.25M 参数量仅为全参数微调的 0.12%，但性能反超，展示了精巧设计的参数效率方法的潜力

亮点与洞察¶

低熵信息集中理论的应用是最大亮点。从信息论角度发现跨模态注意力中的关键对齐点，比过去靠经验设计提示注入位置更有理论基础
"小即是美"的参数效率设计理念值得推广。仅用 0.12% 参数就超越全参数微调，说明对齐质量比参数数量更重要，精准的提示比强力的梯度更新更有效
逐层提示生成的设计思路可以迁移到其他多模态模型（如视频-文本模型、音频-文本模型）的参数高效适配中。共享兴趣 token 发现机制也可应用于注意力可视化和可解释性研究

局限与展望¶

共享兴趣 token 的选择依赖注意力分数，但注意力分数本身不总是语义对齐的可靠指标
实验仅在图像分类任务上验证，在更复杂的多模态任务（如 VQA、图文检索、图像字幕生成）上的效果有待考证
逐层提示生成增加了推理时的前向传播开销，虽然参数少但计算量并非零成本
与近期强基线如 VPT（Visual Prompt Tuning）和 LoRA 的全面对比不够充分

评分¶

新颖性: ⭐⭐⭐⭐ 低熵信息集中理论在提示学习中的应用新颖，但逐层提示注入的大框架已有先例
实验充分度: ⭐⭐⭐⭐ 六个基准的系统对比和消融实验较为充分
写作质量: ⭐⭐⭐⭐ 理论动机阐述清晰，方法描述有条理
价值: ⭐⭐⭐⭐ 对 VLM 参数高效微调领域有实际贡献，0.12% 参数超越全微调令人印象深刻