跳转至

LeapFactual: Reliable Visual Counterfactual Explanation Using Conditional Flow Matching

会议: NeurIPS 2025
arXiv: 2510.14623
代码: GitHub
领域: 可解释AI / 反事实解释
关键词: 反事实解释, 条件流匹配, 可靠性, 模型无关, 信息混合

一句话总结

提出LeapFactual,一种基于条件流匹配(CFM)的反事实解释算法,通过"起飞-降落"(Leap)机制在扁平化和结构化潜在空间之间建立桥梁,生成可靠且分布内的反事实样本,即使在学习决策边界与真实边界不一致时也能有效工作。

研究背景与动机

反事实解释(CE)通过回答"输入需要做什么改变才能改变模型的预测?"来提供模型可解释性。现有方法存在三大核心问题:

基于优化(Opt)的方法的困境:这类方法在生成模型的潜在空间中优化潜在向量使其跨越决策边界。但当从源类到目标类距离较远时(尤其是多分类场景),梯度需要穿越多个类别区域,导致梯度消失,生成的反事实样本停留在决策边界附近,不能真正体现目标类的特征。此外,这类方法必须要求分类器可微分。

基于条件生成模型(CGM)的方法的问题:将分类器输出作为生成模型的条件,通过替换条件来生成反事实。但这类方法的潜在空间是不连续的——不同类别的潜在空间相互分离,无法进行有意义的插值或从反事实样本反向追溯到决策边界。

可靠性问题:现有方法生成的反事实样本通常位于学习到的决策边界附近,而非真实的决策边界。当模型学到的决策边界偏离真实边界时,生成的反事实样本可能既不在数据分布内,也不能准确代表目标类。

作者的核心洞察是:可以用流匹配在扁平化潜在表示(类别信息与残差信息耦合)和结构化潜在表示(类别信息作为外部条件)之间建立连续的、可逆的映射,从而同时享受两种范式的优势。

方法详解

整体框架

LeapFactual在潜在空间中引入一个新维度,沿正向可以剥离类别信息("起飞"),沿反向可以注入类别信息("降落")。具体来说,利用条件流匹配学习一个从结构化表示 \(Z_0\)(不含类别信息)到扁平化表示 \(Z_1\)(含类别信息)的连续映射,以及其逆映射。

关键设计

  1. CE-CFM训练目标: 标准I-CFM假设源分布和目标分布独立耦合,但在反事实场景中 \(Z_0\)\(Z_1\) 通过共同父节点残差信息 \(R\) 相关联。作者将条件项重新定义为 \(h := (z_0, z_{1,c})\),其中 \(z_{1,c} \sim q(z_1|c)\) 是特定类别 \(c\) 的潜在向量。训练目标为:
\[\mathcal{L}_{\text{CE-CFM}}(\psi) := \mathbb{E}_{t, q(h), p_t(z|h)} \| v_\psi(t, z, c) - u_t(z|h) \|^2\]

通过将类别信息 \(c\) 显式作为网络条件,利用高斯 \(Z_0\) 的信息瓶颈效应压缩 \(Z_1\) 中的类别信息。理论证明(Theorem 1):\(Z_0\)\(Z_1\) 的压缩表示,压缩损失的信息恰好是作为条件提供的类别信息 \(C\)

  1. Leap机制(起飞-降落传输): 一次Leap由两步组成:(a) Lift(起飞):沿反向积分 \(\int_1^t \gamma_{\text{lift}} v_\psi(\tau, z^{y_c}(\tau), y_c) d\tau\)\(Z_1\)\(Z_0\),移除当前类别信息;(b) Land(降落):沿正向积分 \(\int_0^t \gamma_{\text{land}} v_\psi(\tau, z^{\hat{y}_c}(\tau), \hat{y}_c) d\tau\)\(Z_0\)\(Z_1\),注入目标类别信息。通过调节步长 \(\gamma\) 实现三种操作模式。

  2. 信息混合与信息注入:

    • 信息混合(Blending):设 \(\gamma_b = \gamma_{b,\text{lift}} = \gamma_{b,\text{land}} < 1\),反事实样本混合源类和目标类特征,产生局部反事实。混合在目标类被到达时自动停止。
    • 信息注入(Injection):设 \(\gamma_{i,\text{lift}} < \gamma_{i,\text{land}}\),在已到达目标类后继续注入目标类信息,使反事实样本更深入目标类的数据分布。这是生成"可靠"反事实的关键——让样本不仅跨越学习边界,还接近真实决策边界。

损失函数 / 训练策略

训练阶段仅需优化CE-CFM目标函数。流匹配模型可以很轻量(如4层MLP),训练后用于推理。推理阶段通过组合 \(N_b\) 次混合Leap和 \(N_i\) 次注入Leap生成反事实样本。建议从小步长、多次Leap开始。

实验关键数据

主实验

Morpho-MNIST反事实生成质量

方法 ACC↑ AUC↑ D(Area)↓ D(Thickness)↓ D(Height)↓
Opt-based 0.828 0.881 0.248 0.172 0.062
CGM-based 0.942 0.998 0.256 0.086 0.029
LeapFactual 0.987 0.999 0.167 0.081 0.027
LeapFactual_R 0.991 1.000 0.230 0.090 0.030

LeapFactual同时在正确性和相似性指标上领先,LeapFactual_R(含信息注入)进一步提升正确性。

消融实验

Galaxy10数据集 - 可靠反事实用于模型改进

训练配置 CE比例 ACC↑ AUC↑ 说明
基线(20%数据) - 0.811 0.977 -
基线(100%数据) - 0.853 0.981 -
+ 标准CE 100% 0.797 0.974 性能下降!CE在学习边界附近
+ 可靠CE 10% 0.816 0.978 性能提升
+ 可靠CE 100% 0.824 0.979 接近100%数据基线

标准反事实作为训练数据会损害性能,而可靠反事实持续改善模型——验证了可靠性的重要价值。

FFHQ高分辨率实验(1024×1024, 非可微分类器CLIP)

Nb ACC↑ SSIM↑ LPIPS↓
5 0.706 0.564 0.149
10 0.957 0.538 0.171
20 0.993 0.525 0.180
随机配对 - 0.070 0.555

关键发现

  • LeapFactual模型无关:无需分类器可微分,可用CLIP代理人类标注,扩展CE到公民科学等需要人工标注的领域
  • 可靠反事实不仅解释性更强,还可作为数据增强改善模型性能,这是标准反事实做不到的
  • 信息混合过程中可追踪分类器预测变化路径,观察类别切换过程(如从蓝色经过黄色到达红色)

亮点与洞察

  • 理论支撑扎实:通过d-separation论证和信息论定理证明了CE-CFM的合理性,而非纯经验方法
  • 统一框架:同时具备Opt方法的连续潜在空间和CGM方法的结构化表示,解决了两类方法各自的痛点
  • 可靠性概念新颖:区分"跨越学习边界"和"接近真实边界",通过信息注入实现后者
  • 玩具实验的可视化非常直观,清晰展示了信息替换、混合、注入三种模式的区别

局限与展望

  • 高维潜在空间(如扩散模型、归一化流)中流匹配模型的训练成本显著增加
  • 仅聚焦视觉数据,虽然理论上可推广到其他模态,但未实际验证
  • 未探索OT-CFM等更高效的流匹配变体(因为最优传输需要修改分类器预测上的传输映射)
  • 潜在空间纠缠和不平衡数据集场景有待探索

相关工作与启发

  • 可靠反事实作为数据增强的发现值得深入,或许可以与主动学习结合,识别模型最不确定的区域
  • 流匹配在其他可解释性任务(如概念编辑、属性操控)中可能有类似应用
  • 模型无关特性使其可用于黑盒API服务的解释

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将条件流匹配引入反事实解释,可靠性概念和Leap机制设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 涵盖基准数据集、真实天文数据集、高分辨率人脸,但基线对比方法偏少
  • 写作质量: ⭐⭐⭐⭐⭐ 问题动机阐述清晰,理论推导完整,可视化出色
  • 价值: ⭐⭐⭐⭐ 解决了反事实解释的核心可靠性问题,可靠CE用于数据增强的发现有实际意义

相关论文