V-CECE: Visual Counterfactual Explanations via Conceptual Edits¶

会议: NeurIPS 2025
arXiv: 2509.16567
代码: 项目页面
领域: 可解释 AI / 反事实解释 / 扩散模型
关键词: 反事实解释, 概念编辑, 黑盒, 知识图谱, 扩散模型

一句话总结¶

V-CECE提出首个系统性揭示人类与神经网络分类器语义理解差异（explanatory gap）的黑盒视觉反事实解释框架，通过WordNet知识图谱+匈牙利算法保证编辑集最优性，用Stable Diffusion执行概念级编辑，核心发现是CNN分类器的语义推理与人类严重不对齐（需5+步编辑），而LVLM（Claude 3.5 Sonnet）与人类高度一致（仅需2-3步）。

研究背景与动机¶

领域现状：反事实解释（counterfactual explanation）是可解释AI的重要工具——通过"如果改变X，分类结果会如何"来揭示模型的决策依据。现有方法分为白盒（需梯度访问）和黑盒（无需内部访问）两类。

现有痛点：现有反事实图像生成方法存在三大问题：(1)编辑分散不可解释（ACE、DiME等产生人类难以理解的像素级改变），(2)过度依赖训练来引导生成（白盒方法需天级训练），(3)最关键的是——所有语义反事实方法都假设分类器以人类语义水平推理，但从未验证这个假设。

核心矛盾：人类和神经网络分类器"理解语义"的方式是否一致？如果不一致，用人类可理解的概念编辑去解释CNN的分类决策本身就是误导性的。这个问题比不可解释的对抗编辑更危险，因为它引入了虚假的可解释性。

本文目标 两个递进问题：(1)分类器的决策过程能否用人类级别的语义来解释？(2)如果能，翻转分类标签所需的最少语义编辑是什么？

切入角度：将反事实解释分解为"解释"和"生成"两个独立阶段——先用知识图谱计算最优语义编辑集（与模型无关），再用冻结的扩散模型执行编辑（避免训练偏差），最后通过分类结果验证效果。

核心 idea：用知识图谱保证编辑最优性，用冻结扩散模型保持公平性，从而系统性地测量人类与模型的语义理解差距。

方法详解¶

整体框架¶

两阶段pipeline：(1)解释阶段：给定源类L和目标类L*的概念集合，在WordNet知识图谱上用匈牙利算法求解最小代价编辑集E（包含插入I、删除D、替换S操作）；(2)生成阶段：按三种策略之一排序编辑，用GroundingDINO+SAM定位目标区域，用Stable Diffusion v1.5 Inpainting执行编辑，每步后检查分类器是否翻转标签。

关键设计¶

最优编辑保证（知识图谱+匈牙利算法）:
- 功能：计算从类L到类L*的最小语义编辑集
- 核心思路：替换代价 = WordNet上两概念间的最短路径距离，用Dijkstra计算。构建二部图匹配问题——源概念和目标概念作为两侧节点，边权为替换代价，添加虚拟节点模拟插入/删除操作（代价为到根节点的距离）。用匈牙利算法求解最小权匹配，时间复杂度 \(O(mn\log n)\)
- 设计动机：提供确定性的最优性保证，不同于之前方法的启发式编辑选择。不可执行的编辑可赋无穷代价自动排除
三种编辑排序策略:
- 功能：在最优编辑集E中决定执行顺序，尽早翻转标签
- 核心思路：(1)Local Edits：LVLM每步观察当前图像+剩余编辑，选择下一个操作（每步更新图像防止逻辑不一致）；(2)Global Edits：统计所有图像上每个编辑的出现频率，按Importance分数排序——分数公式为 \((|I_{s_j^*}| - |D_{s_i}| + |S_{s_i \to s_j^*}| - |S_{s_j^* \to s_i}|) / |e \in E|\)，捕捉分类器的系统性偏差；(3)Local-Global：对特定图像选择local编辑子集，按global重要性排序
- 设计动机：Local利用图像上下文但忽略分类器偏差，Global利用偏差但忽略场景细节，Local-Global平衡两者
冻结扩散模型执行编辑:
- 功能：执行概念级图像编辑同时保持公平评估
- 核心思路：使用Stable Diffusion v1.5 Inpainting（冻结参数，零训练），DPM++ 2M SDE采样器40步，GroundingDINO+SAM生成概念掩码，仅对掩码区域修补。用LVLM（Claude 3.5 Sonnet）确定最佳放置位置和背景填充
- 设计动机：故意不在目标数据集上训练扩散模型，因为训练会引入数据偏差导致虚假有利的反事实图像。冻结模型保证偏差一致，评估结果的差异完全来自分类器行为

损失函数 / 训练策略¶

无训练——V-CECE是完全即插即用的框架，所有模块（分类器、扩散模型、LVLM）都以黑盒方式使用，零训练。

实验关键数据¶

主实验¶

BDD100K（自动驾驶场景分类，Stop/Move）：

方法	FID↓	CMMD↓	SR↑	Avg\|E\|↓	训练
ACE l1 (白盒)	1.02	-	99.9%	-	天
TIME (黑盒)	51.5	-	81.8%	-	小时
V-CECE+DenseNet Local	90.42	1.101	88.9%	4.77	N/A
V-CECE+Claude3.5 Global	45.22	0.427	97.8%	2.65	N/A
V-CECE+Claude3.5 L-G	42.76	0.364	98.1%	2.44	N/A

消融实验¶

人类评估——模型所需编辑步数 vs 人类认为合理的步数：

分类器	Avg\|E\| 模型	Avg\|E\| 人类	视觉正确率(%)
DenseNet	5.22	2.21	59.71
ConvNext	7.35	2.27	34.24
EfficientNet	5.96	2.66	30.17
Claude 3 Haiku	2.91	1.88	69.58
Claude 3.5 Sonnet	2.19	1.33	81.20
Claude 3.7 Sonnet	2.50	1.37	79.98

关键发现¶

CNN与人类存在显著语义鸿沟：DenseNet需要5.22步编辑才能翻转，而人类认为仅需2.21步即可。且DenseNet翻转时59.7%图像已出现视觉伪影，说明它依赖的不是语义变化而是像素分布变化
LVLM与人类高度一致：Claude 3.5 Sonnet仅需2.19步（接近人类的1.33步），且81.2%图像视觉正确，其语义理解与人类基本对齐
CNN的决策具有随机性：重要性最高的概念仅0.16-0.23，且有35-55个重要概念，说明CNN没有一致的语义依赖模式。LVLM相反，最重要概念达0.37-0.40，仅27-31个重要概念
思维链反而有害：Claude 3.7开启thinking后需要更多编辑步骤（3.78 vs 3.03），FID反而更差，印证了CoT在视觉任务上可能有害的研究发现

亮点与洞察¶

问题定义精准：将反事实解释拆分为"语义对齐度验证"和"最小编辑计算"两个递进问题，这比之前只做第二步的方法更根本。如果分类器不在语义层面推理，用语义反事实解释它就是误导
冻结模型保证公平性：故意不训练扩散模型的设计非常巧妙——避免了数据偏差污染评估结果，使得分类器之间的差异可以真实反映其语义理解能力
LVLM-as-classifier的新用法：将LVLM当作分类器来解释是可行的且语义对齐度高，这为解释黑盒商业模型提供了新范式

局限与展望¶

人类评估规模有限：当前人类调查规模较小，统计检验力和精度有限，结果应视为初步洞察
扩散模型的生成质量限制：Stable Diffusion v1.5 inpainting在多步编辑后产生伪影是不可避免的，这混淆了"分类器的语义不对齐"和"图像质量下降导致的分类变化"
知识图谱的语义粒度：WordNet的概念粒度固定且不完整，可能遗漏对分类重要的视觉概念
仅在BDD100K和Visual Genome验证：需要扩展到医学影像等高风险领域验证通用性
改进方向：引入白盒生成模型做对比、扩大人类评估规模并评估评分者间一致性、测试新一代扩散模型（SD3/Flux）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性揭示人类与模型的语义理解差距，问题定义很有价值
实验充分度: ⭐⭐⭐⭐ 覆盖CNN/ViT/LVLM多种分类器，包含人类评估，但人评规模偏小
写作质量: ⭐⭐⭐⭐ 逻辑清晰，问题动机阐述精准，实验分析深入
价值: ⭐⭐⭐⭐⭐ 揭示的explanatory gap对XAI领域有根本性意义，改变了对反事实解释的理解