跳转至

📚 AI Paper Notes

FastSVERL: Approximating Shapley Explanations in Reinforcement Learning

FastSVERL: Approximating Shapley Explanations in Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2511.06094
代码: GitHub
领域: 强化学习 / 可解释AI
关键词: Shapley值, 可解释RL, 特征归因, 时序依赖, 分摊估计

一句话总结¶

提出 FastSVERL——首个针对 RL 的可扩展 Shapley 值近似方法，用参数化模型分摊计算成本，解决 RL 特有的时序依赖、off-policy 数据和策略演化等挑战，为 RL 决策提供原则性的特征归因解释。

研究背景与动机¶

领域现状：RL 在复杂决策中成功但缺乏透明性。Shapley 值提供理论保证的特征归因，但计算成本随特征数指数增长。
现有痛点：(a) 监督学习的 Shapley 近似方法（如 SHAP）假设单步预测，不能处理 RL 的多步轨迹；(b) RL 策略在训练中持续变化，解释需要同步更新；(c) 实际 RL 中常只有 off-policy 数据。
核心矛盾：精确 Shapley 值需遍历所有特征子集（\(2^n\) 个），不可行；但 RL 的解释比监督学习更复杂因为涉及时间维度。
切入角度：参数化 Shapley 值估计模型，在多步轨迹上分摊计算。
核心idea一句话：将 Shapley 特征函数参数化为神经网络，跨轨迹和时间步分摊学习，支持 off-policy 更新和策略演化。

方法详解¶

关键设计¶

参数化 Shapley 值估计：
训练一个模型 \(f_\theta\) 近似 Shapley 特征函数 \(f_x(\mathcal{C}) = \mathbb{E}[f(X)|X^\mathcal{C} = x^\mathcal{C}]\)
跨时间步和轨迹进行分摊学习
时序依赖处理：
对 RL 的 value function 做归因：解释 \(v^\pi(s)\) 中各特征的贡献
累积折扣奖励的归因需要跨多步传播
Off-policy 和策略演化：
支持从其他策略收集的数据中估计当前策略的 Shapley 值
随策略更新自适应调整解释

实验关键数据¶

方法	估计精度	计算时间	扩展性
精确 Shapley	基准	指数级	不可行
采样 Shapley	中等	高	有限
FastSVERL	接近精确	线性	好

关键发现¶

FastSVERL 在多个 RL 环境中与精确 Shapley 值高度一致
计算成本降低数个量级
Off-policy 估计质量与 on-policy 相当

亮点与洞察¶

原则性的 RL 解释方法：Shapley 值有唯一性、对称性等理论保证，优于 ad-hoc 归因方法
分摊学习的思路可迁移到其他需要跨时间步归因的任务

局限性 / 可改进方向¶

参数化模型的近似误差难以精确量化
高维状态空间中模型训练可能不稳定

评分¶

新颖性: ⭐⭐⭐⭐ 首个针对 RL 特有挑战的可扩展 Shapley 方法
实验充分度: ⭐⭐⭐⭐ 多环境验证+与精确值对比
写作质量: ⭐⭐⭐⭐ 问题和方法阐述清晰
价值: ⭐⭐⭐⭐ 对安全关键 RL 部署有重要意义