跳转至

FastSVERL: Approximating Shapley Explanations in Reinforcement Learning

会议: NeurIPS 2025
arXiv: 2511.06094
代码: GitHub
领域: 强化学习 / 可解释AI
关键词: Shapley值, 可解释RL, 特征归因, 时序依赖, 分摊估计

一句话总结

提出 FastSVERL——首个针对 RL 的可扩展 Shapley 值近似方法,用参数化模型分摊计算成本,解决 RL 特有的时序依赖、off-policy 数据和策略演化等挑战,为 RL 决策提供原则性的特征归因解释。

研究背景与动机

  1. 领域现状:RL 在复杂决策中成功但缺乏透明性。Shapley 值提供理论保证的特征归因,但计算成本随特征数指数增长。
  2. 现有痛点:(a) 监督学习的 Shapley 近似方法(如 SHAP)假设单步预测,不能处理 RL 的多步轨迹;(b) RL 策略在训练中持续变化,解释需要同步更新;(c) 实际 RL 中常只有 off-policy 数据。
  3. 核心矛盾:精确 Shapley 值需遍历所有特征子集(\(2^n\) 个),不可行;但 RL 的解释比监督学习更复杂因为涉及时间维度。
  4. 切入角度:参数化 Shapley 值估计模型,在多步轨迹上分摊计算。
  5. 核心idea一句话:将 Shapley 特征函数参数化为神经网络,跨轨迹和时间步分摊学习,支持 off-policy 更新和策略演化。

方法详解

关键设计

  1. 参数化 Shapley 值估计
  2. 训练一个模型 \(f_\theta\) 近似 Shapley 特征函数 \(f_x(\mathcal{C}) = \mathbb{E}[f(X)|X^\mathcal{C} = x^\mathcal{C}]\)
  3. 跨时间步和轨迹进行分摊学习

  4. 时序依赖处理

  5. 对 RL 的 value function 做归因:解释 \(v^\pi(s)\) 中各特征的贡献
  6. 累积折扣奖励的归因需要跨多步传播

  7. Off-policy 和策略演化

  8. 支持从其他策略收集的数据中估计当前策略的 Shapley 值
  9. 随策略更新自适应调整解释

实验关键数据

方法 估计精度 计算时间 扩展性
精确 Shapley 基准 指数级 不可行
采样 Shapley 中等 有限
FastSVERL 接近精确 线性

关键发现

  • FastSVERL 在多个 RL 环境中与精确 Shapley 值高度一致
  • 计算成本降低数个量级
  • Off-policy 估计质量与 on-policy 相当

亮点与洞察

  • 原则性的 RL 解释方法:Shapley 值有唯一性、对称性等理论保证,优于 ad-hoc 归因方法
  • 分摊学习的思路可迁移到其他需要跨时间步归因的任务

局限性 / 可改进方向

  • 参数化模型的近似误差难以精确量化
  • 高维状态空间中模型训练可能不稳定

评分

  • 新颖性: ⭐⭐⭐⭐ 首个针对 RL 特有挑战的可扩展 Shapley 方法
  • 实验充分度: ⭐⭐⭐⭐ 多环境验证+与精确值对比
  • 写作质量: ⭐⭐⭐⭐ 问题和方法阐述清晰
  • 价值: ⭐⭐⭐⭐ 对安全关键 RL 部署有重要意义