Interpreting Object-level Foundation Models via Visual Precision Search¶

会议: CVPR 2025
arXiv: 2411.16198
代码: https://github.com/RuoyuChen10/VPS
领域: 目标检测
关键词: 模型可解释性, 目标检测, 视觉精确搜索, 子模函数, 归因分析

一句话总结¶

针对 Grounding DINO 和 Florence-2 等目标级基础模型的可解释性问题，本文提出 Visual Precision Search (VPS) 方法，通过超像素稀疏化+子模函数引导的贪心搜索精确定位关键决策子区域，在 MS COCO/RefCOCO/LVIS 上的忠实度指标(Insertion)分别超过 SOTA 方法 D-RISE 达 23.7%/20.1%/31.6%。

研究背景与动机¶

领域现状：随着多模态预训练的发展，Grounding DINO、Florence-2等目标级基础模型在视觉定位和目标检测中表现出色。但这些模型参数量巨大、语义丰富，透明度和可解释性急剧下降。
现有痛点：
- 梯度方法(如ODAM)：由于基础模型中视觉和文本特征深度融合，梯度回传时受双模态影响，无法准确定位到视觉层面的关键区域，导致归因图弥散
- 扰动方法(如D-RISE)：通过随机采样生成显著性图，引入大量采样噪声，导致归因图粗糙、细粒度可解释性不足
- 现有方法无法有效解释模型的检测失败原因
核心矛盾：基础模型的视觉-文本融合架构使传统梯度归因失效；而扰动方法的随机采样策略又过于粗糙。
本文目标 设计一种不依赖模型内部参数、能精确定位少量关键决策区域的归因方法，适用于不同架构的目标级基础模型。
切入角度：将归因问题转化为子区域的子集选择问题，利用子模优化的理论保证进行贪心搜索。
核心 idea：用超像素将输入稀疏化为子区域集合，设计满足子模性的评分函数（线索分+协作分），通过贪心搜索精确排序关键区域。

方法详解¶

VPS 的核心思路是：不去探究模型内部参数（黑盒方法），而是将输入图像划分为少量有意义的子区域，然后通过子模优化找到"用最少区域即可让检测器正确工作"的关键区域集合。

整体框架¶

输入：图像 \(\mathbf{I}\)、目标边界框 \(\boldsymbol{b}_{target}\)、目标类别 \(c\)。处理流程： 1. SLICO超像素分割将图像分为 \(m\) 个子区域 \(V = \{\mathbf{I}_1^s, ..., \mathbf{I}_m^s\}\) 2. 定义子模函数 \(\mathcal{F}(S)\) 评估子区域集合的可解释性 3. 贪心搜索迭代选择使 \(\mathcal{F}\) 最大化的子区域 4. 根据边际贡献为每个子区域评分，生成最终显著性图

关键设计¶

线索分 (Clue Score):
- 功能：评估给定子区域集合能否让模型正确定位和识别目标
- 核心思路：对于子区域集合 \(S\)，计算模型输出中与目标框IoU和类别置信度的乘积最大值：\(s_{clue}(S, \boldsymbol{b}_{target}, c) = \max_{(\boldsymbol{b}_i, s_{c,i}) \in f(S)} \text{IoU}(\boldsymbol{b}_{target}, \boldsymbol{b}_i) \cdot s_{c,i}\)。与D-RISE不同，此方法考虑所有候选框而非仅高置信框，避免搜索陷入局部最优
- 设计动机：一个好的解释应该能让模型用尽可能少的输入区域就做出正确检测
协作分 (Collaboration Score):
- 功能：评估子区域的组合效应——某些区域只有与其他特定区域组合时才对决策有贡献
- 核心思路：计算移除子区域集合 \(S\) 后模型检测能力的下降程度：\(s_{colla.}(S, \boldsymbol{b}_{target}, c) = 1 - \max_{(\boldsymbol{b}_i, s_{c,i}) \in f(V \setminus S)} \text{IoU}(\boldsymbol{b}_{target}, \boldsymbol{b}_i) \cdot s_{c,i}\)。移除关键区域后，如果没有检测框能准确定位目标，则这些区域的协作分高
- 设计动机：在搜索初期，某些微妙但关键的区域（如辅助上下文线索）仅通过加入测试可能效果不明显，但移除它们会导致检测失败。协作分能有效捕捉这类区域
子模函数与贪心搜索:
- 功能：将两种分数组合为具有理论保证的优化目标
- 核心思路：子模函数 \(\mathcal{F}(S) = s_{clue}(S) + s_{colla.}(S)\)。论文证明了该函数在合理假设下满足边际递减和单调非负性质（子模性），因此贪心搜索能保证 \((1-1/e)\) 近似比的最优解。搜索完成后，用边际贡献差 \(\mathcal{A}_i = \mathcal{A}_{i-1} - |\mathcal{F}(S_{[i]}) - \mathcal{F}(S_{[i-1]})|\) 为每个子区域评分，归一化后生成显著性图
- 设计动机：子模优化提供了理论上的最优性保证，比D-RISE的随机采样和D-HSIC的SHAP估计更加原理化

损失函数 / 训练策略¶

VPS是无需训练的推理时方法。超像素数默认设为100个。每个被评估的子区域集合需要一次模型前向推理。

实验关键数据¶

主实验¶

Grounding DINO 忠实度评估 (正确检测样本)

数据集	方法	Insertion↑	Deletion↓	Avg. Highest Score↑
MS COCO	D-RISE	0.4412	0.0402	0.6215
MS COCO	VPS(Ours)	0.5459 (+23.7%)	0.0375	0.6873
RefCOCO	D-RISE	0.6178	0.1605	0.8471
RefCOCO	VPS(Ours)	0.7419 (+20.1%)	0.1250	0.8842
LVIS(rare)	D-RISE	0.2808	0.0289	0.4289
LVIS(rare)	VPS(Ours)	0.3695 (+31.6%)	0.0277	0.4969

Florence-2 忠实度评估

数据集	方法	Insertion↑	Deletion↓
MS COCO	D-RISE	0.7477	0.0972
MS COCO	VPS(Ours)	0.7761	0.0479 (-50.7%)
RefCOCO	D-RISE	0.8107	0.1275
RefCOCO	VPS(Ours)	0.8604	0.0422 (-66.9%)

消融实验¶

配置	关键效果	说明
仅Clue Score	Insertion显著下降	缺少协作分无法捕捉上下文依赖
仅Collaboration Score	初始搜索不够精准	缺少直接的检测引导
Full (Clue+Colla.)	最优	两者互补
超像素数量	100个最优	过少→粒度粗；过多→搜索空间大

失败案例分析 (Grounding DINO)

任务	方法	Insertion↑	ESR↑
视觉定位失败	D-RISE	0.3430	39.5%
视觉定位失败	VPS	0.4901 (+42.9%)	42.5%
误分类(COCO)	D-RISE	0.3021	—
误分类(COCO)	VPS	0.4674 (+54.7%)	—

关键发现¶

梯度方法在基础模型上失效：Grad-CAM/ODAM在Grounding DINO上的归因高度弥散，Insertion指标仅为VPS的一半以下，证实了视觉-文本融合对梯度归因的严重干扰
VPS在失败分析上尤其强大：不仅能解释正确检测，还能识别导致误分类和漏检的输入级因素
线索分+协作分的互补性：线索分在后期搜索中主导（引导模型做出正确检测），协作分在早期搜索中更重要（快速锁定关键的上下文区域）
Florence-2的Deletion指标提升最显著：50.7%和66.9%的改善，因为没有置信度分数时搜索比随机采样优势更大

亮点与洞察¶

搜索代替采样：将随机扰动替换为有理论保证的子模优化搜索，核心巧妙在于"用更少区域做出正确检测"这个目标天然适合子模优化的边际递减特性
黑盒通用性：不访问模型内部参数，适用于完全不同架构的模型（Grounding DINO的多阶段融合 vs Florence-2的MLLM架构），这种方法论可以迁移到任何未来的新架构
失败分析能力：除了解释正确决策，VPS还能定位导致错误的输入因素（如共现混淆），这对自动驾驶等安全关键场景有实际价值

局限与展望¶

贪心搜索的计算开销：每轮搜索中每个候选子区域都需要一次模型前向推理，\(m\) 个子区域需要 \(O(m^2)\) 次推理，对于大模型可能较慢
超像素分割质量直接影响結果，如果关键区域被不合理地分割则无法正确归因
MLLM模型(如Florence-2)不直接输出置信度分数，使得clue score只能依赖IoU，解释精度受限
目前仅验证了静态图像的目标检测，视频检测和其他视觉基础任务（如分割）未涉及
子模性的理论证明依赖"区域对检测有正贡献"的假设，异常输入可能违反

评分¶

新颖性: ⭐⭐⭐⭐ 将子模优化引入目标检测可解释性，clue+collaboration双分设计有洞察
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集+两个模型+正确/失败分析+多种评估指标，非常全面
写作质量: ⭐⭐⭐⭐ 理论分析和实验验证结合良好，逻辑清晰
价值: ⭐⭐⭐⭐ 为基础模型的可解释性提供了通用黑盒方案，对安全关键应用有实际意义