跳转至

Performative Validity of Recourse Explanations

会议: NeurIPS 2025
arXiv: 2506.15366
代码: 无
领域: causal_inference
关键词: 算法追索权, 表演性效应, 因果推断, 反事实解释, 分布偏移

一句话总结

本文形式化分析了追索权解释(recourse explanations)的"表演性"效应——当大量被拒申请者按照追索建议行动时,集体行为会引发数据分布偏移并使模型更新后追索失效,并证明了只有基于因果变量的改进型追索(ICR)才能在广泛条件下保持"表演性有效性"。

研究背景与动机

1. 领域现状

在高风险机器学习决策场景(贷款审批、研究生录取、求职面试筛选等)中,被拒申请者需要获得"追索权解释"——即告知其如何修改特征以获得正面评估。现有追索方法包括反事实解释(CE)、因果追索(CR)和改进型因果追索(ICR)三大类。

2. 现有痛点

已有工作关注的是外部数据偏移(temporal drift、地理变化等)对追索有效性的影响,但忽视了一个根本现象:追索本身就会导致分布偏移。当大量申请者按照同一套追索建议行动时,他们的集体行为会改变数据分布,模型重新训练后决策边界也随之移动。

3. 核心矛盾

追索的"表演性"(performativity)引发了一个自我矛盾:追索建议可能使自己失效。例如,当系统建议被拒求职者增加 GitHub 活动时,大量申请者使用自动提交工具制造虚假活动,模型更新后不再信任该特征,按建议行动的人再次被拒——浪费了时间和精力却毫无收获。

4. 本文要解决什么?

形式化刻画追索解释在"自身表演性效应"下保持有效的条件,即:什么情况下追索不会因为自身引发的分布偏移而失效?

5. 切入角度

从因果图视角出发,将追索行为建模为因果干预,分析追索动作变量 A 与后追索标签 L^p 之间的条件独立关系。通过 d-separation 分析确定表演性失效的两个根源:(1) 动作受效应变量影响;(2) 动作干预效应变量。

6. 核心 idea 一句话

追索的表演性失效本质上源于对非因果(效应)变量的依赖——只有推荐作用于因果变量的改进型追索(ICR)才能保证表演性有效性。

方法详解

整体框架

本文建立了一个"表演性追索"理论框架,其核心由以下部分构成:

  1. 前追索→后追索分布建模:将后追索的申请者分布建模为原始分布和执行追索后分布的混合分布 P(L^m, X^m) = αP(L,X) + (1-α)P(L^p, X^p | L̂=0)
  2. 结构因果模型(SCM):假设数据生成过程由无环 SCM 描述,追索动作是因果干预 do(a)
  3. 追索动作变量 A:引入专用动作变量,将追索决策和推荐建模为从前追索特征 X 到动作 A 的因果路径
  4. 表演性有效性(Performative Validity):要求对所有被接受的点 x 和所有混合权重 α,更新后模型满足 L̂^m(x) ≥ L̂(x)

关键设计

模块 1:表演性有效性的充分条件(Proposition 5.1)

  • 做什么:建立"非信息性动作⇒表演性有效性"的等价关系
  • 核心思路:如果观察到是否执行了干预不能帮助预测后追索标签 L^p(给定后追索特征 X^p),则原始最优模型和后追索最优模型在所有原始接受点上一致
  • 设计动机:这将表演性有效性问题转化为条件独立性检验,可以用因果图的 d-separation 来分析

模块 2:两个失效根源的识别(Theorem 5.2)

  • 做什么:精确刻画因果图中导致 A ⊥̸ L^p | X^p 的两条路径
  • 核心思路:在扩展因果图(包含前后追索变量)中,A 与 Y^p 的 d-连通路径只能通过两条关键边:(1) X_{de(Y)} → A(效应变量影响动作)和 (2) A → X_E^p(动作干预效应变量)
  • 设计动机:将抽象的条件独立性问题分解为两个可操作的检查条件

模块 3:两个恢复性假设

假设 5.4(噪声重采样):如果前后追索的未观测因果影响(U_Y, U_E)是独立的(如每天的天气、心情等),则仅干预因果变量的追索方法可保证表演性有效性(Proposition 5.5)。

假设 5.6(可逆聚合噪声):如果结构方程的效应和噪声可以聚合且可逆(如线性加性噪声、乘性噪声),则即使噪声保持不变,仅干预因果变量也可保证表演性有效性(Theorem 5.7)。

模块 4:三种追索方法的对比分析

方法 干预对象 优化目标 表演性有效性
CE(反事实解释) 任意特征(含效应变量) 翻转预测 L̂(x')=1 ❌ 可能失效
CR(因果追索) 因果干预(含效应变量) P(L̂(X^p)=1|x,do(a))≥t_r ❌ 可能失效
ICR(改进型因果追索) 仅因果变量 P(L^p=1|x,do(a))≥t_r ✅ 广泛条件下有效

损失函数 / 训练策略

本文是理论分析工作,不涉及训练。核心贡献是定理证明:

  • Corollary 5.9:在排除第一种失效源的条件下(假设 5.4 或 5.6 成立),仅 ICR 能保证表演性有效性,CE 和 CR 均可能失效。

实验关键数据

主实验

实验在 5 种合成数据设定和 2 种真实数据设定上验证理论:

数据设定 CE 接受率变化 CR 接受率变化 ICR 接受率变化
LAdd(线性加性噪声) 大幅下降 大幅下降 无变化
LMult(线性乘性噪声) 大幅下降 大幅下降 无变化
NLAdd(非线性加性噪声) 大幅下降 大幅下降 无变化
NLMult(非线性乘性噪声) 大幅下降 大幅下降 无变化
LCubic(多项式噪声) 大幅下降 大幅下降 微小正向变化
GPA(大学录取) ≈-80% ≈-80% 无变化
Credit(信用评分) 显著下降 显著下降 无变化

消融实验

条件分布偏移分析(Q1)——比较前后追索条件概率的逐点差异:

数据设定 CE 条件概率变化 CR 条件概率变化 ICR 条件概率变化
NLAdd -70% ~ -100% -70% ~ -100% 0%
LAdd 显著负偏移 显著负偏移 0%
LMult 显著负偏移 显著负偏移 0%
LCubic 显著负偏移 显著负偏移 0% ~ +60%

关键发现

  1. CE 和 CR 无一例外地导致条件分布负偏移和严重的表演性失效——在所有 7 种数据设定中接受率均大幅下降
  2. ICR 在所有设定中保持表演性有效——接受率几乎无变化,结果远超理论保证的范围
  3. 唯一例外:在 LCubic 设定中,ind. ICR 的条件概率略有正向增长(0-60%),但这反而对申请者有利
  4. 真实数据验证:GPA 和 Credit 数据集上 CE/CR 接受率暴跌约 80%,进一步证实了理论预测

亮点与洞察

  1. 概念创新:"表演性有效性"是一个极具洞察力的新概念,将 performative prediction 文献与算法追索权文献自然连接,揭示了一个被广泛忽视的实践问题
  2. 因果图分析精准:通过 d-separation 分析将抽象的分布偏移问题分解为两条具体的因果路径,提供了清晰的操作性指导
  3. 强有力的实践建议:论文明确给出了"不要使用 CE 和 CR,只用 ICR"的实践建议,对 XAI 领域有重要指导意义
  4. 理论与实验高度一致:实验结果完美印证了理论分析,ICR 在超出理论保证的范围内也表现良好

局限性 / 可改进方向

  1. 因果知识假设过强:ICR 需要完整的因果图和 SCM,在实践中很难获得;论文自身也指出应探索不完整因果知识下的扩展
  2. 单步追索的局限:仅考虑一次推荐-行动-重评估的循环,现实中申请者可能多次反复申请
  3. 模型权威方视角缺失:仅从申请者角度分析,未考虑模型提供方可能利用追索进行策略性引导的情况
  4. 离散噪声的实验设定:为便于逐点比较条件分布,合成实验使用了有限支撑的离散噪声,可能限制了结果的普遍性
  5. 缺乏违反因果充分性的讨论:假设无未观测混杂因子,但这在实际中往往不成立

相关工作与启发

  • Performative Prediction (Perdomo et al., 2020):表演性有效性是表演性稳定性(performative stability)的自然推广,但要求更弱——不需要模型不变,只需模型更新后不拒绝原本被接受的人
  • Strategic Classification (Hardt et al., 2016):将追索与策略性操纵联系起来。本文的核心洞察——"gaming vs improvement"——直接来源于策略分类文献中对因果/非因果变量干预的区分
  • Robust Recourse (Upadhyay et al., 2021):现有鲁棒追索关注外生分布偏移,本文首次关注内生(由追索本身引起的)偏移
  • ICR (König et al., 2023):本文从理论上为 ICR 提供了新的支持——不仅从模型权威方角度看 ICR 更好,从表演性有效性角度看 ICR 是唯一可靠的选择

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — "表演性有效性"概念新颖,两个失效根源的因果分析原创性强
  • 实验充分度: ⭐⭐⭐⭐ — 5 种合成 + 2 种真实数据全面验证理论,但实验设定有简化
  • 写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰,运行示例(GitHub 活动 vs 硕士学位)贯穿全文极具启发性
  • 价值: ⭐⭐⭐⭐ — 对 XAI/追索权实践有直接指导意义,但实际部署受因果知识可用性限制