Attention Prompting on Image for Large Vision-Language Models¶

会议: ECCV 2024
arXiv: 2409.17143
代码: GitHub
领域: 大视觉语言模型 / 视觉提示
关键词: visual prompting, attention heatmap, LVLM, CLIP, self-reflection

一句话总结¶

提出Attention Prompting on Image（API），用辅助VLM（如CLIP或LLaVA）根据文本查询生成注意力归因热力图，将其叠加到原始图像上作为视觉提示，在无需训练的情况下提升LVLM在多个VL基准上的表现（LLaVA-1.5 在MM-Vet上+3.8%）。

研究背景与动机¶

领域现状：LVLM在多种视觉语言任务上表现出色，但在复杂场景中仍难以准确聚焦于回答问题所需的关键区域。视觉提示（如画圈、标记）已被证明可以改善LVLM的感知能力，但现有方法存在明显缺陷。

现有痛点：(1) 已有视觉提示方法（FGVP、SoM）基于分割模型生成提示，与文本查询无关——无论问什么同一张图的提示结果不变；(2) 依赖分割mask的提示本质上是instance-level proposals，偏向grounding任务，不适用于通用VQA；(3) 粗暴的mask/blur操作可能破坏图像全局信息。

核心矛盾：如何生成与文本查询相关的视觉提示，既能引导LVLM关注正确区域，又不损害其全局理解能力？

切入角度：利用辅助VLM的注意力机制从文本查询中提取"应关注哪些图像区域"的信号，将其以柔和的alpha blending热力图方式叠加到原图上。

方法详解¶

整体框架¶

给定输入图像\(I\)和文本查询\(T^i\)，API分两步：(1) 用辅助模型\(g\)（CLIP或LLaVA）生成文本-图像归因图\(\Psi \in \mathbb{R}^{P \times P}\)；(2) 将归因图转换为像素空间热力图\(\Phi\)，通过alpha blending叠加到原图得到\(I^a\)，再送入目标LVLM \(f\)生成回答。当\(g=f\)时为自反射模式，\(g \neq f\)时为模型集成模式。

关键设计¶

从CLIP获取归因图
- 直接归因\(\Psi^{cls}\)：将CLIP视觉编码器中MSA输出的cls token按残差连接分解，得到每个patch对最终image-level相似度的贡献\(\psi_t\)，再与文本embedding计算相似度——直接关联到查询中提到的实体
- 补充归因\(\Psi^{comp}\)：利用CLIP最后一层非cls token与文本的相似度反转——高相似度的"空白"patch被视为信息寄存器而非重要区域
- 融合：\(\Psi = \Psi^{cls} + \Psi^{comp} - \Psi^{comp} \cdot \Psi^{cls}\)（soft OR操作）——既高亮查询直接相关的区域，又保留潜在相关的区域
- 设计动机：两个归因图互补——cls分解精确定位显式实体，comp反转保留隐式相关区域
从LLaVA获取归因图
- 直接使用LLaVA最后几层的输出token到图像token的注意力权重
- 在所有生成token和注意力头上取平均作为归因图
- 更简洁但依赖LLaVA的可访问性

损失函数 / 训练策略¶

API是纯推理时技术，无需训练。归因图\(\Psi\)经Resize到像素空间后用均值滤波（kernel size \(k\)）平滑方块效应，得到最终热力图\(\Phi\)。\(\Phi\)作为alpha通道与原图相乘得到输入。

实验关键数据¶

主实验¶

推理模型	提示方法	VisWiz	TextVQA	MMMU	MM-Vet	LLaVA-Bench
LLaVA-1.5	无提示	60.9	48.3	35.2	32.8	71.9
LLaVA-1.5	FGVP (Mask)	56.9	39.4	36.1	31.0	57.4
LLaVA-1.5	SoM	54.2	18.8	35.6	26.4	56.1
LLaVA-1.5	API (CLIP)	61.3	48.8	37.5	35.3	74.1
LLaVA-1.5	API (LLaVA)	61.4	48.8	37.0	36.6	74.8
GPT-4V	无提示	59.4	50.6	50.6	67.0	102.0
GPT-4V	API (CLIP)	69.5	51.5	51.0	67.7	103.3

消融实验¶

消融项	MM-Vet (LLaVA)
Full API (CLIP)	35.3
仅\(\Psi^{cls}\)	34.1
仅\(\Psi^{comp}\)	33.8
无平滑滤波	34.5
固定注意力（非query-dependent）	33.2

关键发现¶

API在LLaVA-1.5上: MM-Vet +3.8%, LLaVA-Bench +2.9%, MMMU +2.3%——所有基准一致提升
已有视觉提示方法（FGVP、SoM）在多数基准上反而降低性能（尤其TextVQA降>5%）——因为与查询无关的提示会误导模型
API对GPT-4V同样有效（VisWiz +10.1%），证明了跨模型通用性
两种归因图互补：\(\Psi^{cls}\)擅长显式实体定位，\(\Psi^{comp}\)擅长整体区域筛选

亮点与洞察¶

极简设计：只需叠加一个热力图到原图，无需训练、无需修改模型架构
query-dependent是关键区分因素——根据不同问题动态生成不同视觉提示，这是之前方法缺乏的
\(\Psi^{cls}\)的cls token分解技术提供了一种理解CLIP内部注意力机制的新视角
可视为"自反射"或"模型集成"的轻量实现——通过像素空间而非文本空间传递中间知识

局限性 / 可改进方向¶

辅助模型的前向推理增加了延迟——对CLIP约增加1次编码，对LLaVA约增加1次生成
热力图的alpha blending强度缺乏自适应调整——不同图像/查询可能需要不同强度
对需要精确空间推理（如counting、grounding）的任务提升有限
CLIP归因图的cls分解基于后几层MSA的近似，理论保证不够严格

评分¶

新颖性: ⭐⭐⭐⭐ query-dependent视觉提示+cls token分解，概念简洁有洞察
实验充分度: ⭐⭐⭐⭐⭐ 4个LVLM×6个基准的全面实验，含GPT-4V和Gemini
写作质量: ⭐⭐⭐⭐ 方法推导清晰，可视化效果好
价值: ⭐⭐⭐⭐ 零训练的通用VLM提升方案，实用性强

title: >- [论文解读] Attention Prompting on Image for Large Vision-Language Models description: >- [ECCV 2024][多模态][提示学习] API用辅助VLM根据文本查询生成注意力热力图叠加原图，引导LVLM关注相关区域，在MM-Vet上提升LLaVA-1.5达3.8%，跨模型通用。 tags: - ECCV 2024 - 多模态 - 提示学习 - LVLM - 视觉提示

Attention Prompting on Image for Large Vision-Language Models¶

会议: ECCV 2024
arXiv: 2409.17143
代码: GitHub
领域: 大视觉语言模型 / 视觉提示
关键词: visual prompting, attention heatmap, LVLM, self-reflection, model ensemble

一句话总结¶

提出Attention Prompting on Image（API），通过辅助VLM（CLIP或LLaVA）根据文本查询生成注意力归因图，将其作为热力图叠加到原始图像上引导LVLM聚焦相关区域，在MM-Vet上提升LLaVA-1.5达3.8%，跨多种LVLM（包括GPT-4V）通用有效。

研究背景与动机¶

领域现状：视觉提示（visual prompting）通过在图像上添加圈圈、箭头、遮罩等标注来引导LVLM关注特定区域。已有方法（如FGVP、SoM）依赖分割模型生成标注，无需训练且直觉有效。

现有痛点：(1) 已有视觉提示技术仅处理图像本身，不考虑文本查询内容——无论问什么问题，同一张图的视觉提示结果相同；(2) 这导致提示区域与实际问题所需关注的区域不匹配；(3) 基于分割的方法（FGVP/SoM）本质是实例级proposal，不适用于通用VQA任务。

核心矛盾：如何让视觉提示随文本查询动态变化，使模型根据不同问题关注图像的不同区域？

切入角度：利用LVLM自身的视觉-文本对齐能力生成query-aware的注意力归因图，将其作为视觉提示叠加到图像上。

方法详解¶

整体框架¶

给定图像\(I\)和文本查询\(T^i\)，API分两步：(1) 归因图生成：用辅助VLM \(g\)（可以是CLIP或LLaVA自身）计算文本查询对图像各patch的重要性得分，生成归因图\(\Psi \in \mathbb{R}^{P \times P}\)；(2) 热力图叠加：将归因图上采样到像素空间，经均值滤波平滑后作为alpha通道与原图混合，得到标注图像\(I^a\)送入推理VLM \(f\)。若\(g=f\)则为self-reflection，若\(g \neq f\)则为模型集成。

关键设计¶

CLIP的cls token分解归因图
- 利用ViT的残差连接，将CLIP的图像级相似度分解到各patch的贡献
- 对深层MSA输出逐patch计算与文本嵌入\(\hat{T}\)的相似度，得到\(\Psi^{cls}\)——直接定位与查询实体相关的patch
- 互补归因图\(\Psi^{comp}\)：最后一层非cls token与\(\hat{T}\)的相似度取反——低信息量的"寄存器"token相似度高，有实际内容的patch相似度低
- 最终归因图 \(\Psi = \Psi^{cls} + \Psi^{comp} - \Psi^{cls} \cdot \Psi^{comp}\)（软OR操作），兼顾显式实体定位和隐式相关区域保留
LLaVA的注意力权重归因图
- 直接取LLaVA深层decoder的cross-attention权重（输出token对图像token的注意力值）
- 在所有生成token和所有注意力头上取平均，得到每个图像patch的平均被关注程度
- 比CLIP方案更简单，但需要先做一次推理生成输出序列

损失函数 / 训练策略¶

API是一种无需训练的推理时技术，不涉及损失函数或训练过程。核心超参数包括：归因图使用的起始层\(L'\)、均值滤波核大小\(k\)。

实验关键数据¶

主实验¶

模型	提示方法	MM-Vet	LLaVA-Bench	MMMU
LLaVA-1.5	无提示	32.8	71.9	35.2
LLaVA-1.5	FGVP (Mask)	31.0 (-1.8)	57.4 (-14.5)	36.1 (+1.0)
LLaVA-1.5	SoM	26.4 (-6.4)	56.1 (-15.8)	35.6 (+0.4)
LLaVA-1.5	API (CLIP)	35.3 (+2.5)	74.1 (+2.2)	37.5 (+2.4)
LLaVA-1.5	API (LLaVA)	36.6 (+3.8)	74.8 (+2.9)	37.0 (+1.8)
GPT-4V	无提示	67.0	102.0	50.6
GPT-4V	API (CLIP)	67.7 (+0.7)	103.3 (+1.3)	51.0 (+0.4)

消融实验¶

消融项	MM-Vet	说明
仅\(\Psi^{cls}\)	34.1	缺少隐式相关patch
仅\(\Psi^{comp}\)	33.8	缺少显式实体定位
\(\Psi^{cls} + \Psi^{comp}\)（软OR）	35.3	两者互补最优
无均值滤波	33.5	矩形mask与物体形状不匹配
不同起始层\(L'\)	\(L'=L-2\)最优	浅层信息不够判别

关键发现¶

API在LLaVA-1.5上比FGVP和SoM显著更好——关键在于query-aware（后两者不看问题）
FGVP和SoM在大多数模型-数据集组合中反而降低性能——query-agnostic的视觉提示可能造成mismatch
API在闭源模型GPT-4V和Gemini上同样有效（+0.7%到+11.6%），证明了通用性
当辅助模型\(g\)与推理模型\(f\)相同时（self-reflection），效果最好（API-LLaVA on LLaVA: +3.8%）

亮点与洞察¶

将视觉提示从"query-agnostic"升级到"query-aware"是一个关键的范式转变——同一图，不同问题应highlight不同区域
cls token分解是一种巧妙的归因方法——利用残差连接的可加性将全局相似度拆解到patch级
发现非cls token的高相似度实际是"寄存器"功能——与register token的最新研究一致

局限性 / 可改进方向¶

需要额外的一次辅助模型前向推理，推理成本翻倍
热力图叠加为像素级乘法，可能丢失被压暗区域的信息——对需要全局理解的任务可能有害
CLIP的归因图对非实体类查询（如"这幅画的风格是什么"）效果可能有限
未测试在视频VQA或多图对比等复杂场景中的效果

评分¶

新颖性: ⭐⭐⭐⭐ query-aware视觉提示是重要的范式升级，cls分解方法有创意
实验充分度: ⭐⭐⭐⭐⭐ 5个LVLM×6个基准+详细消融+闭源模型验证
写作质量: ⭐⭐⭐⭐ 方法动机清晰，两种归因图方案对比全面
价值: ⭐⭐⭐⭐ 无训练的即插即用方法，实用性强

Attention Prompting on Image for Large Vision-Language Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

Attention Prompting on Image for Large Vision-Language Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

相关论文¶