DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models¶
基本信息¶
- arXiv: 2510.14741
- 会议: NeurIPS 2025
- 作者: Simone Carnemolla, Matteo Pennisi, Sarinda Samarasinghe, Giovanni Bellitto, Simone Palazzo, Daniela Giordano, Mubarak Shah, Concetto Spampinato
- 机构: University of Catania, University of Central Florida
- 代码: https://github.com/perceivelab/dexter
一句话总结¶
提出 DEXTER,一个无需数据的框架,通过优化文本提示驱动扩散模型生成最大化目标分类器激活的图像,再用 LLM 对合成样本进行推理,生成全局性、可读的文本解释,实现模型行为的偏差发现和全局解释。
背景与动机¶
模型可解释性是构建可信 AI 的基础。现有方法的局限:
- 局部归因方法(GradCAM、Integrated Gradients):只解释单个预测,不提供全局理解
- 激活最大化(AM):生成的图像抽象且难以语义解读
- 文本解释方法(NLE):通常依赖标注数据和预训练视觉-语言映射
- 偏差发现方法(B2T、LADDER):需要训练数据做误分类分析
核心需求:一种无需任何训练数据或标签的全局解释方法,能以自然语言描述分类器的决策模式和偏差。
核心问题¶
如何在完全无数据的条件下,系统性地揭示和解释深度视觉分类器的决策过程,包括特征偏好、偏差模式和虚假关联?
方法详解¶
1. 整体框架¶
三大管线: - 文本管线:优化 soft prompt → BERT 预测 mask token → 获得文本提示 - 视觉管线:文本提示条件化 Stable Diffusion → 生成最大化目标神经元激活的图像 - 推理模块:VLM 对生成的图像进行 caption → LLM 跨样本推理 → 生成文本偏差报告
2. 文本管线:Soft Prompt → Hard Token¶
输入结构:\(\mathbf{t} = [\mathbf{t}_\text{fixed}, m_1, m_2, \ldots, m_N]\),其中 \(\mathbf{t}_\text{fixed}\) = "a picture of a"
- 在 BERT 嵌入前添加可学习 soft prompt \(\mathbf{p} \in \mathbb{R}^{P \times d}\)(\(P=1, d=768\))
- BERT 输出 mask 位置的 logits \(\mathbf{l}_i \in \mathbb{R}^V\)
- 通过 Gumbel-Softmax(\(\tau=1\))将 logits 转为可微的 one-hot 向量 \(\mathbf{o}_i\)
- BERT→CLIP 词汇表映射:翻译矩阵 \(\mathbf{M} \in \{0,1\}^{V \times W}\) $\(\mathbf{o}_i^{(C)} = \mathbf{o}_i \mathbf{M}\)$ BERT 中无 CLIP 对应的 token 被自动避开(对应行全零)
3. 视觉管线:激活最大化¶
将文本编码为 CLIP 嵌入 \(\mathbf{e}\),条件化 Stable Diffusion 生成图像,送入目标分类器 \(f\) 获得神经元激活 \(\mathbf{n} = f(d(\mathbf{e}))\)。
激活最大化损失: $\(\mathcal{L}_\text{act} = \sum_{i=1}^K l_\text{act}(n_i), \quad l_\text{act}(n_i) = \begin{cases} -n_i, & \text{特征神经元} \\ -\log n_i, & \text{类别神经元} \end{cases}\)$
4. 辅助 Mask 伪标签预测¶
为解决 soft prompt 梯度传播过弱的问题,引入辅助交叉熵损失: - 维护伪标签 \(y_i\) 和参考损失 \(L_i\) - 聚合关联神经元的激活损失:\(\mathcal{L}_{\text{agg},i} = \sum_{j \in \mathcal{N}_i} l_\text{act}(n_j)\) - 用历史均值防止离群值干扰伪标签更新: $\(\frac{1}{T} \sum_{j=1}^T \mathcal{L}_{\text{agg},i}^{(j)} < L_i\)$
总损失: $\(\mathcal{L} = \sum_{k=1}^K l_\text{act}(n_k) - \sum_{i=1}^N \log s_{i, y_i}\)$
5. 偏差推理¶
对每个目标类生成 50 张图像 → ChatGPT-4o mini 生成逐图 caption → LLM 跨 caption 推理 → 输出结构化偏差报告。
实验关键数据¶
激活最大化(SalientImageNet,30 类)¶
| 方法 | Spurious | Core | 平均 |
|---|---|---|---|
| Baseline(类名) | 43.06 | 86.40 | 64.73 |
| ChatGPT 描述 | 41.20 | 78.53 | 59.87 |
| DiffExplainer | 33.20 | 47.66 | 39.83 |
| DEXTER | 63.00 | 87.86 | 75.43 |
Slice Discovery & Debiasing(Worst-Slice Accuracy)¶
| 方法 | 需要数据 | CelebA Worst | Waterbirds Worst |
|---|---|---|---|
| ERM | ✓ | 47.7 | 62.6 |
| DRO | ✓ + GT | 90.0 | 89.9 |
| DRO-B2T | ✓ | 90.4 | 90.7 |
| LADDER | ✓ | 89.2 | 92.4 |
| DEXTER | ✗ | 91.3 | 90.5 |
- 在 CelebA 上 DEXTER 无数据条件下超越所有方法(含使用数据的)
- 在 Waterbirds 上与 SOTA 持平
偏差报告评估(FairFaces)¶
| 指标 | w Bias | w/o Bias | 均值 |
|---|---|---|---|
| STS(与数据报告相似度) | 0.92 | 0.85 | 0.90 |
| G-eval 一致性 | 4.58 | 4.80 | 4.19 |
| MOS-LLM | 4.29 | 4.80 | 4.48 |
| MOS-人类 | 4.20 | 3.89 | 4.01 |
消融实验¶
| 配置 | Spurious | Core | 平均 |
|---|---|---|---|
| 单词 | 11.13 | 36.33 | 23.73 |
| 单词 + \(\mathcal{L}_\text{mask}\) | 34.00 | 53.86 | 43.93 |
| 多词 | 15.53 | 8.13 | 11.83 |
| 多词 + \(\mathcal{L}_\text{mask}\) | 63.00 | 87.86 | 75.43 |
亮点¶
- 完全无数据:仅需分类器本身,不接触任何训练数据或标签
- 多模态全局解释:视觉(激活最大化图像)+ 文本(LLM 偏差报告)双通道
- 离散提示优化:Gumbel-Softmax + BERT→CLIP 映射实现可解释的 hard token 优化
- 三任务验证:激活最大化 + 偏差发现 + 偏差解释,每个任务都有定量评估
- 伪标签机制:解决了 soft prompt 梯度消失问题,同时建立神经元与文本 token 的映射
局限性¶
- 计算成本:每类约 10 分钟的 prompt 优化,大规模类别(ImageNet 1000 类)耗时较长
- 依赖 Stable Diffusion:生成图像质量受限于扩散模型能力,对 SD 未覆盖的领域可能失效
- NSFW 风险:需额外安全过滤器
- LLM 幻觉:VLM/LLM 的推理可能引入与模型行为无关的虚假解释
- 仅限分类器:未扩展到检测、分割等其他视觉任务
与相关工作的对比¶
- vs. DiffExplainer:DEXTER 使用 hard token 替代 soft prompt,更可解释;用户研究显示概念特征上优于 DiffExplainer
- vs. B2T:B2T 需要训练数据做误分类分析,DEXTER 完全无数据
- vs. LADDER:LADDER 依赖低置信度预测和 LLM 伪属性,仍然需要数据
- vs. GradCAM / IG:局部归因 vs. 全局文本解释,互补但功能不同
启发与关联¶
- 可解释性新范式:无数据全局解释 = 主动探测分类器(而非被动分析数据)
- 扩散模型 × 可解释性:扩散模型不仅能生成图像,还能作为可解释性工具
- 偏差审计自动化:DEXTER 可作为模型部署前的自动偏差审计工具
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 无数据全局解释框架是全新贡献,三管线设计优雅
- 技术深度:⭐⭐⭐⭐☆ — Gumbel-Softmax + 词汇表映射 + 伪标签机制设计精巧
- 实验完整度:⭐⭐⭐⭐⭐ — 三个任务 × 四个数据集 × 用户研究 × 消融实验
- 写作质量:⭐⭐⭐⭐⭐ — 逻辑清晰,图表丰富,附录详尽