Learning Interpretable Queries for Explainable Image Classification with Information Pursuit¶

会议: ICCV 2025
arXiv: 2312.11548
代码: 无
领域: 可解释人工智能 / 图像分类
关键词: 可解释分类, 信息追踪, 稀疏字典学习, CLIP, 查询字典优化

一句话总结¶

在CLIP语义嵌入空间中将信息追踪（Information Pursuit）的查询字典参数化为可学习向量，通过交替优化算法学习任务充分的可解释查询字典，缩小了可解释分类器与黑盒分类器的性能差距。

研究背景与动机¶

Information Pursuit（IP）是一种可解释性内建（interpretable-by-design）的分类框架：给定一组预定义的语义查询字典，IP按信息增益顺序选择最有信息量的查询子集，基于查询-回答对做出预测。然而IP面临关键限制：

查询字典依赖人工：之前的方法使用人工标注的概念（如CUB-200的鸟类属性）或LLM提示生成查询，质量取决于专家经验

LLM生成的查询次优：依赖提示工程启发式方法，产生的查询集可能冗余、不相关或不足

性能差距：使用手工字典的IP与黑盒分类器之间存在显著精度差距

核心问题：如何学习一个对任务充分的查询字典？

方法详解¶

整体框架¶

利用CLIP的语义嵌入空间，将每个查询参数化为该空间中的可学习向量 \(\theta_i\)，通过最近邻映射 \(q^{(\theta_i)} = \arg\min_{q \in \mathcal{U}} \|\theta_i - q\|_2^2\) 保持可解释性（每个学到的查询始终对应查询宇宙中的自然语言概念）。采用交替优化算法：固定字典更新V-IP网络 → 固定V-IP网络更新字典。

关键设计¶

CLIP空间中的查询参数化: 查询宇宙 \(\mathcal{U} = \{E_T(c) | c \in \mathcal{T}\}\) 由约30万个CLIP文本嵌入组成（来自多个LLM提示和COCO数据集标题）。K个可学习嵌入 \(\theta = \{\theta_i\}_{i=1}^K\) 通过最近邻投影保证可解释性。使用STE直通估计器实现 \(\arg\min\) 的反向传播。字典增强的V-IP目标为：\(\arg\min_{\theta,\psi,\eta} J_{Q_\theta}(\psi, \eta)\)。
交替优化算法（Algorithm 1）: 直接联合优化三者（\(\theta\), \(\psi\), \(\eta\)）会导致问题：字典更新后查询语义改变，原有querier策略失效。因此采用交替方式：每\(t=4\)步V-IP网络更新搭配1步字典更新。V-IP更新时冻结字典训练querier和classifier；字典更新时冻结V-IP网络只更新 \(\theta\)。
与稀疏字典学习的联系: 方法与K-SVD等经典稀疏字典学习算法存在深层联系：(a) IP选择查询子集 ≈ OMP稀疏编码（选择最有信息量的原子）；(b) V-IP更新 ≈ 稀疏编码步骤（计算语义编码）；(c) 字典更新 ≈ 字典原子更新（减少分类误差而非重建误差）。Proposition 1证明在偏差采样下，最优字典参数同时最小化所有查询预算下的KL散度之和。
查询回答机制: 使用CLIP ViT-L/14计算软回答：归一化点积 \(\hat{q}^{(\theta_i)}(X) = (\langle q^{(\theta_i)}/\|q\|, E_I(X)/\|E_I(X)\| \rangle - m_\theta) / (M_\theta - m_\theta)\)，通过阈值0.5量化为硬回答（二值化保证可解释性）。

损失函数 / 训练策略¶

V-IP损失：\(J_{Q_\theta}(\psi, \eta) = \mathbb{E}_{X,S}[D_{KL}(P(Y|X) \| P_\psi(Y|S, A_\eta(X,S)))]\)
Querier和Classifier均为两层MLP，使用掩码处理变长输入
Adam优化器，V-IP更新和字典更新交替进行
基于验证集准确率AUC调参

实验关键数据¶

主实验 — 查询字典学习提升V-IP准确率¶

在6个数据集上，K-Learned vs K-LLM（固定查询预算 \(\tau\)）：

数据集	查询预算 \(\tau\)	K-LLM	K-Learned (best init)	Black-Box
RIVAL-10	10	~96%	~98.7%	~99%
CIFAR-10	10	~90%	~95.1%	~97%
CIFAR-100	50	~70%	~75.2%	~82%
ImageNet-100	50	~79%	~84.0%	~91%
CUB-200	100	~69%	~74.5%	~82%
Stanford-Cars	100	~77%	~82.4%	~87%

K-Learned在所有数据集上显著超越K-LLM，并大幅缩小了与黑盒模型的差距。

消融实验¶

交替优化 vs 联合优化：

数据集	查询预算	交替优化	联合优化
RIVAL-10	10	98.73%	98.26%
CIFAR-10	10	95.12%	87.00%
CUB-200	100	74.52%	72.14%
Stanford-Cars	100	82.39%	79.18%

交替优化一致优于联合优化，在CIFAR-10上差距高达8%。

与4种SOTA CBM的对比（使用RN50 CLIP + 软回答）：

数据集	K-Learned	PCBM	LaBo	Label-free	Res-CBM
CIFAR-10	88.55%	82.08%	87.52%	86.77%	88.03%
CIFAR-100	68.02%	56.00%	67.36%	67.45%	67.91%

K-Learned优于或可比4种SOTA概念瓶颈模型。

关键发现¶

三种初始化方式（K-LLM、K-Random、K-Medoids）都能从学习中受益，性能差异在5个百分点内
量化（硬回答+最近邻投影）降低了性能但保证了可解释性
在jellyfish分类案例中，V-IP通过8个查询（如"Wings? No", "Swims? Yes", "UFO-like? Yes"）逐步缩小后验熵，提供了透明的决策过程
CLIP作为查询回答机制存在噪声（如将jellyfish回答为"anemone? Yes"）

亮点与洞察¶

将字典学习从信号处理引入可解释AI：建立了IP查询选择与OMP稀疏编码的形式化联系（Proposition 1）
可解释性约束内建于参数化：通过最近邻投影到查询宇宙，保证学到的查询始终可用自然语言表达
交替优化的必要性：揭示了querier与字典之间的耦合问题，联合优化会导致语义漂移
渐进式解释：IP的决策过程像"20个问题"游戏，每步都能观察后验分布变化，比CBM的静态解释更直观

局限与展望¶

严重依赖CLIP的查询回答质量，CLIP的噪声回答限制了最终性能
查询宇宙需要预先构建（约30万个查询），构建质量影响学到的字典
硬回答的量化丢失信息，但去掉量化又损害可解释性，二者难以兼得
未探索如何将方法扩展到更大规模的分类任务（如完整的ImageNet-1K）
查询预算\(\tau\)对性能影响大但需要手动设定

评分¶

新颖性: ⭐⭐⭐⭐⭐ 稀疏字典学习与信息追踪的桥接非常优雅
实验充分度: ⭐⭐⭐⭐ 6个数据集，多种初始化和优化策略对比
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，与经典方法的联系深入
综合价值: ⭐⭐⭐⭐ 为可解释分类器的查询设计提供了原则性的学习方法