跳转至

📚 AI Paper Notes

Counterfactual Explanations on Robust Perceptual Geodesics

Counterfactual Explanations on Robust Perceptual Geodesics¶

会议: ICLR 2026
arXiv: 2601.18678
代码: 论文提供代码（匿名）
领域: 人类理解 / 可解释AI / 图像生成
关键词: 反事实解释, 测地线优化, 感知度量, 对抗鲁棒性, 可解释性

一句话总结¶

提出 PCG（Perceptual Counterfactual Geodesic）方法，在鲁棒感知流形上通过测地线优化生成语义忠实的反事实解释，两阶段优化确保路径既感知自然又达到目标类别，在 AFHQ 上 FID=8.3 远优于 RSGD 的 12.9。

研究背景与动机¶

领域现状：反事实解释（"如果图像变成这样，分类器就会改变预测"）是模型可解释性的重要工具。现有方法直接在像素空间或潜在空间做梯度下降生成反事实。
现有痛点：像素空间的反事实容易产生不自然的对抗性扰动，潜在空间的方法可能走到流形之外导致非真实图像。
核心矛盾：反事实需要"最小改变"但也需要"语义合理"——这两个目标在欧氏空间中常常矛盾（欧氏距离上的最短路径可能跨越非真实区域）。
本文要解决什么？ 如何在感知自然的约束下找到到目标类别的最短路径？
切入角度：在鲁棒感知度量定义的黎曼流形上求测地线——流形上的最短路径天然沿着数据分布的"山脊"走，不会穿越"低密度谷"。
核心idea一句话：用对抗训练鲁棒模型的特征空间定义感知度量的黎曼流形，在这个流形上求测地线作为反事实路径。

方法详解¶

整体框架¶

两阶段优化：Phase 1 最小化测地线能量（让路径贴近数据流形），Phase 2 在能量约束下加入分类损失（让路径到达目标类别）。

关键设计¶

鲁棒感知度量:
做什么：用对抗训练模型的 Jacobian 定义黎曼度量张量
核心思路：度量 G_R(x) = sum_k w_k * J(h_k(x))^T * J(h_k(x))，其中 h_k 是鲁棒模型的中间层特征。pullback 到潜在空间：G_z(z) = J(g(z))^T * G_R(g(z)) * J(g(z))。
设计动机：鲁棒模型的特征梯度在语义方向上有意义（非对抗性），定义的度量让语义相似点距离近。
测地线优化:
Phase 1：最小化路径能量 E = integral(gamma'(t)^T * G_z * gamma'(t) dt)
Phase 2：加入分类损失引导路径到目标类别
设计动机：分开优化避免了分类损失过早"拉扯"路径偏离流形。

实验关键数据¶

数据集	方法	FID	R-FID	R-LPIPS
AFHQ	RSGD	12.9	37.8	0.68
AFHQ	PCG	8.3	9.1	0.17

关键发现¶

PCG 的 R-LPIPS（鲁棒感知距离）从 0.68 降到 0.17，说明生成的反事实图像更感知自然
反事实路径上的中间帧也是视觉合理的（渐变过程而非突变）
鲁棒模型定义的度量优于标准模型（后者的特征梯度不够语义）

亮点与洞察¶

黎曼几何+可解释性：将微分几何的测地线概念应用于可解释 AI，数学上优美且效果好。
两阶段优化的意义：先确保路径合理再引导到目标，类似于"先修路再导航"的思路。

局限性 / 可改进方向¶

需要对抗训练的鲁棒模型来定义度量，不是所有域都有现成的鲁棒模型
测地线优化计算成本较高（需要 Jacobian-向量积）
仅在图像分类上验证

相关工作与启发¶

vs RSGD: 在黎曼流形上做随机梯度下降，但不保证路径能量最小化
vs DiME: 使用扩散模型做反事实，但缺乏几何保证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 黎曼测地线用于反事实解释的理论框架非常新颖
实验充分度: ⭐⭐⭐⭐ 多数据集定量验证
写作质量: ⭐⭐⭐⭐ 数学推导严谨
价值: ⭐⭐⭐⭐ 为可解释AI提供了理论严格的工具