FastSVERL: Approximating Shapley Explanations in Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2511.06094
代码: GitHub
领域: 强化学习 / 可解释AI
关键词: Shapley值, 可解释RL, 特征归因, 时序依赖, 分摊估计
一句话总结¶
提出 FastSVERL——首个针对 RL 的可扩展 Shapley 值近似方法,用参数化模型分摊计算成本,解决 RL 特有的时序依赖、off-policy 数据和策略演化等挑战,为 RL 决策提供原则性的特征归因解释。
研究背景与动机¶
- 领域现状:RL 在复杂决策中成功但缺乏透明性。Shapley 值提供理论保证的特征归因,但计算成本随特征数指数增长。
- 现有痛点:(a) 监督学习的 Shapley 近似方法(如 SHAP)假设单步预测,不能处理 RL 的多步轨迹;(b) RL 策略在训练中持续变化,解释需要同步更新;(c) 实际 RL 中常只有 off-policy 数据。
- 核心矛盾:精确 Shapley 值需遍历所有特征子集(\(2^n\) 个),不可行;但 RL 的解释比监督学习更复杂因为涉及时间维度。
- 切入角度:参数化 Shapley 值估计模型,在多步轨迹上分摊计算。
- 核心idea一句话:将 Shapley 特征函数参数化为神经网络,跨轨迹和时间步分摊学习,支持 off-policy 更新和策略演化。
方法详解¶
关键设计¶
- 参数化 Shapley 值估计:
- 训练一个模型 \(f_\theta\) 近似 Shapley 特征函数 \(f_x(\mathcal{C}) = \mathbb{E}[f(X)|X^\mathcal{C} = x^\mathcal{C}]\)
-
跨时间步和轨迹进行分摊学习
-
时序依赖处理:
- 对 RL 的 value function 做归因:解释 \(v^\pi(s)\) 中各特征的贡献
-
累积折扣奖励的归因需要跨多步传播
-
Off-policy 和策略演化:
- 支持从其他策略收集的数据中估计当前策略的 Shapley 值
- 随策略更新自适应调整解释
实验关键数据¶
| 方法 | 估计精度 | 计算时间 | 扩展性 |
|---|---|---|---|
| 精确 Shapley | 基准 | 指数级 | 不可行 |
| 采样 Shapley | 中等 | 高 | 有限 |
| FastSVERL | 接近精确 | 线性 | 好 |
关键发现¶
- FastSVERL 在多个 RL 环境中与精确 Shapley 值高度一致
- 计算成本降低数个量级
- Off-policy 估计质量与 on-policy 相当
亮点与洞察¶
- 原则性的 RL 解释方法:Shapley 值有唯一性、对称性等理论保证,优于 ad-hoc 归因方法
- 分摊学习的思路可迁移到其他需要跨时间步归因的任务
局限性 / 可改进方向¶
- 参数化模型的近似误差难以精确量化
- 高维状态空间中模型训练可能不稳定
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个针对 RL 特有挑战的可扩展 Shapley 方法
- 实验充分度: ⭐⭐⭐⭐ 多环境验证+与精确值对比
- 写作质量: ⭐⭐⭐⭐ 问题和方法阐述清晰
- 价值: ⭐⭐⭐⭐ 对安全关键 RL 部署有重要意义