Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs¶

会议: ECCV 2024
arXiv: 2403.11755
代码: https://github.com/jmiemirza/Meta-Prompting (有)
领域: LLM/NLP
关键词: zero-shot recognition, meta-prompting, VLM, CLIP, prompt ensembling

一句话总结¶

提出 MPVR（Meta-Prompting for Visual Recognition），通过两阶段元提示策略自动让 LLM 生成任务特定且类别特定的 VLM 提示，在 20 个数据集上将 CLIP 零样本识别提升最高 19.8%，完全消除人工提示设计。

研究背景与动机¶

领域现状¶

领域现状：CLIP 的零样本分类性能高度依赖文本提示的质量

核心矛盾¶

核心矛盾：提示集成（多个类别特定提示的平均嵌入）带来显著提升，但手工设计大量提示不可行

现有痛点¶

现有痛点：现有 LLM 辅助方法（CUPL/DCLIP/Waffle）仍需手工设计 LLM 查询模板或数据集特定的概念

解决思路¶

解决思路：核心问题：手工设计 LLM 查询是否引入了主观偏见？能否完全自动化提示生成？

补充说明¶

补充说明：关键观察：将人工设计从 VLM 提示层面转移到 LLM 查询层面，并没有真正消除人工干预

方法详解¶

整体框架¶

MPVR 采用两阶段提示生成： 1. 第一阶段（元提示）：LLM 根据任务描述自动生成多样的、类别无关的 LLM 查询模板 2. 第二阶段（类别化）：将类别名称填入查询模板，再次查询 LLM 生成类别特定的 VLM 提示 3. 最终用这些 VLM 提示构建集成零样本分类器

关键设计¶

元提示的三部分组成：

系统提示（System Prompt）：
- 通用指令，描述元提示任务和期望输出格式
- 跨所有任务保持不变
上下文示例（In-context Example）：
- 包含一个示例任务的描述和对应的 LLM 查询模板
- 引导 LLM 理解期望的输出格式和风格
- 跨所有任务保持不变
下游任务规范（Task Specification）：
- 唯一与任务相关的部分
- 从公开 API 或数据集网页抓取的简短自然语言描述
- 提供粗粒度任务信息让 LLM 生成任务特定的查询

两阶段生成的优势： - 第一阶段注入任务视觉风格信息但保持类别无关 - 第二阶段填入类别信息生成细粒度视觉描述 - 两阶段比单阶段直接生成效果更好（消融验证）

损失函数 / 训练策略¶

无需训练：MPVR 是纯推理时方法
零样本分类使用标准余弦相似度 + 温度缩放
类别嵌入 = 所有 VLM 提示嵌入的均值
总共生成约 250 万条唯一类别描述（GPT + Mixtral）

实验关键数据¶

主实验¶

在 20 个数据集上的平均零样本准确率提升：

方法	相对 CLIP 的平均提升
DCLIP	+1.8%
CUPL	+2.5%
Waffle	+2.9%
MPVR (GPT)	+5.0%
MPVR (Mixtral)	+4.5%

单数据集最大提升：EuroSAT 上 +19.8%（GPT）、+18.2%（Mixtral）

消融实验¶

元提示组件	平均准确率变化
完整 MPVR	baseline
w/o 系统提示	-2.1%
w/o 上下文示例	-1.8%
w/o 任务描述	-3.5%
单阶段（跳过第一阶段）	-1.2%

关键发现¶

开源模型也有效：首次证明 Mixtral 等开源 LLM 生成的描述也能提升 VLM 零样本性能
MPVR-CLIP 甚至超越了 LLM 解码器类方法（如 LLaVA-1.5）在视觉识别上的表现
任务描述是最关键的组件，移除后性能下降最多
与 MetaCLIP 和 OpenCLIP 等更强 VLM 配合使用时，提升同样显著
在细粒度分类数据集（如花卉、汽车）上提升尤为明显

亮点与洞察¶

极简人工干预：仅需任务的短文本描述（可从网页自动获取），完全消除手工提示设计
两阶段策略的洞察：先生成任务风格→再填充类别信息，比一步到位更有效
首次验证开源 LLM 的有效性：Mixtral 的表现与 GPT 接近，降低了 API 依赖
生成的 250 万描述语料本身就是对 LLM 视觉世界知识的有价值提取
方法的通用性和可扩展性：对无视觉数据的新领域也可直接使用

局限与展望 / 可改进方向¶

两次 LLM 查询增加了计算成本（但仅需一次性生成）
LLM 生成的描述可能包含不准确的视觉信息
对类别数量极多的数据集（如 DomainNet 的 345 类），生成成本较高
未探索 VLM 提示的加权集成（当前简单平均）

评分¶

维度	分数 (1-10)
新颖性	8
技术深度	6
实验充分性	9
实用价值	9
写作质量	8
总体评分	8.0