Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts¶

会议: ICLR 2026
arXiv: 2503.06084
代码: github.com/ThomasWangY/IVPT
领域: 多模态VLM / 自监督
关键词: Visual Prompt Tuning, 可解释性, 概念原型, 跨层融合, 细粒度分类

一句话总结¶

提出IVPT（Interpretable Visual Prompt Tuning），通过跨层类别无关概念原型将抽象visual prompt关联到人类可理解的语义区域，在保持参数高效微调优势的同时，首次实现了visual prompt的可解释性，在CUB-200等细粒度分类基准上同时提升解释一致性（+8.4%）和准确率。

研究背景与动机¶

领域现状：Visual Prompt Tuning（VPT）已成为适配预训练视觉模型到下游任务的主流方法，通过在Transformer输入层插入少量可学习token实现参数高效微调。现有方法如VPT-Deep、E2VPT、Gated Prompt Tuning表现优异但prompt是黑盒向量。

现有痛点：这些prompt是不受约束的抽象嵌入，无法提供人类可理解的决策解释。在医疗诊断、自动驾驶等安全关键领域，缺乏可解释性严重限制了AI系统的可信赖性。现有可解释方法（如ProtoPNet、TesNet）只关注最后一层特征，无法解释多层prompt。

核心矛盾：VPT方法的prompt在多个Transformer层学习，但现有原型方法只能解释单层特征；已有方法学习类别特定原型，无法分析跨类别共享概念。

本文目标 - 将抽象prompt嵌入关联到人类可理解的视觉概念 - 在多个网络层实现prompt的跨层可解释性 - 学习类别无关的共享概念原型

切入角度：将每个prompt定义为图像中某个语义区域的聚合特征（而非任意向量），该区域由概念原型通过注意力机制发现，在浅层用更多原型捕获细粒度特征，深层用更少原型捕获粗粒度语义。

核心 idea：用跨层类别无关概念原型替代黑盒prompt向量，每个prompt通过概念区域发现和区域内特征聚合机制，绑定到图像中的可解释语义区域。

方法详解¶

整体框架¶

输入：预训练ViT + 图像
中间：跨层概念原型 → 概念区域发现（CRD）→ 区域内特征聚合（IFA）→ 跨层prompt融合
输出：可解释的prompt嵌入 → 分类头 → 各概念的条件类别得分 → 平均得到最终预测

关键设计¶

概念区域发现（Concept Region Discovery, CRD）
- 功能：将每个概念原型 \(\mathbf{q}_k\) 关联到图像中的特定语义区域
- 核心思路：计算原型与patch嵌入之间的负欧氏距离注意力，经Softmax归一化后加上可学习空间偏置，得到每个原型的概念注意力图 \(\mathbf{A}\)。每个patch被分配给注意力最高的概念，形成区域图 \(\mathbf{R}\)
- 关键公式：\(a_{k,ij} = \frac{\exp(-\|\mathbf{e}_{ij} - \mathbf{q}_k\|^2)}{\sum_l \exp(-\|\mathbf{e}_{ij} - \mathbf{q}_l\|^2)} + b_{k,ij}\)
- 设计动机：类别无关原型能捕获跨类别共享的语义概念（如"鸟翅膀"、"车轮"），比类别特定原型更能揭示模型对通用视觉概念的学习
区域内特征聚合（Intra-region Feature Aggregation, IFA）
- 功能：将概念区域内的patch特征聚合为该概念对应的prompt嵌入
- 核心思路：\(\mathbf{p}_k = \frac{\sum_{i,j} \mathbf{z}_{k,ij}}{\sum_{i,j} r_{k,ij}}\)，即用区域概率加权的patch特征均值作为prompt
- 设计动机：prompt不再是任意向量，而是某个语义区域的"代表"，直接可解释
跨层概念原型与融合
- 功能：在不同Transformer层使用不同数量的原型，浅层多（17个）、深层少（8个），并将浅层细粒度prompt融合为深层粗粒度prompt
- 核心思路：通过可学习分组层（线性层+Gumbel-Softmax）将细粒度prompt分组，组内取均值后过MLP得到深层prompt。引入概念区域一致性损失 \(\mathcal{L}_{con}\)（KL散度）确保细粒度区域的组合与粗粒度区域对齐
- 设计动机：模拟人类视觉认知的"局部→全局"推理过程，浅层捕获纹理/颜色等低级属性，深层捕获部件/整体等高级语义

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \lambda_{cls}\mathcal{L}_{cls} + \lambda_{ps}\mathcal{L}_{ps} + \lambda_{con}\mathcal{L}_{con}\)
\(\mathcal{L}_{cls}\)：分类交叉熵（每个概念条件得分的平均）
\(\mathcal{L}_{ps}\)：部件塑形损失（确保区域不重叠、前景覆盖、连通性等）
\(\mathcal{L}_{con}\)：跨层区域一致性损失（KL散度）
所有 \(\lambda\) 均设为1，Backbone冻结仅训练prompt相关参数

实验关键数据¶

主实验（CUB-200-2011，DinoV2-B backbone）¶

方法	一致性(Con.)	稳定性(Sta.)	准确率(Acc.)
ProtoPNet	27.6	57.0	85.8
Huang et al.	68.6	71.4	89.9
VPT-Deep	14.6	39.5	89.1
VPT-Deep (w/ Proto.)	70.2	72.5	90.3
IVPT	75.3	75.9	90.8

IVPT在所有三个维度（可解释性+准确率）上均为最优。

消融实验（DinoV2-B, CUB-200）¶

配置	Con.	Sta.	Acc.
Baseline（仅最后一层，全局注意力）	62.7	64.3	88.4
+ 空间偏置图	63.5	66.7	88.7
+ 区域内特征聚合（IFA）	65.4	68.3	89.8
+ 跨层原型	70.4	70.9	90.5
+ 细到粗prompt融合	75.3	75.9	90.8

关键发现¶

跨层结构贡献最大：加入跨层原型+融合后一致性从65.4→75.3（+9.9），是所有组件中增益最大的
IFA对准确率贡献最大：只加IFA后准确率从88.7→89.8（+1.1%），说明区域条件化的特征比全局特征更有判别力
在PartImageNet和PASCAL-Part上泛化良好：IVPT分别达63.2/72.6的一致性分，大幅超越ProtoPool和Huang et al.
人类评估：20人评估，97.5%概念标注准确率，细节保留4.7/5，语义抽象4.8/5，过渡自然度4.8/5
医学影像适用性：在Gleason-2019前列腺癌分级数据集上，IVPT能有效识别腺腔、病变腺泡等关键分级特征

亮点与洞察¶

首次为VPT建立可解释范式：将prompt从"黑盒向量"转变为"图像区域的语义代表"，这个思路优雅且实用。以前VPT的可解释性只能靠后验分析（如attention map），IVPT将解释性内建到prompt构造过程中
类别无关原型的优势：跨类别共享概念（如不同鸟类的"翅膀"、不同飞机的"尾翼"）不仅提升了解释一致性，还能发现跨域通用的视觉概念，这对AI辅助知识发现有重要价值
跨层细→粗融合模拟人类认知：浅层捕获纹理/颜色，深层捕获部件/整体，通过可学习分组建立层间关系，这与人类从细节到整体的视觉推理过程一致

局限与展望¶

概念原型依赖领域内学习，迁移到差异较大的新领域时需要重新训练
在DinoV2-S这样的小backbone上，一致性略低于Huang et al.（-2.2%），说明小模型容量不足以同时维持可解释性和准确率
每层固定原型数（17/14/11/8）是手动设定的超参，自动确定最优原型数可能进一步提升效果
可改进方向：将IVPT扩展到文本-视觉多模态prompt（如CLIP），利用文本语义辅助概念发现

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将可解释性内建到VPT框架中，概念原型→prompt的设计思路全新
实验充分度: ⭐⭐⭐⭐ 多backbone、多数据集、消融、人类评估覆盖全面，但主要集中在细粒度分类，通用分类场景验证不足
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式推导完整，可视化丰富
价值: ⭐⭐⭐⭐ 为VPT可解释性开辟新方向，对安全关键领域的AI应用有实际意义