跳转至

Deep SPI: Safe Policy Improvement via World Models

会议: ICLR 2026
arXiv: 2510.12312
领域: 强化学习 / 安全策略改进 / 世界模型
关键词: safe policy improvement, world model, representation learning, PPO, importance ratio

一句话总结

构建了安全策略改进(SPI)的理论框架,将世界模型和表示学习与策略更新保证统一起来:通过基于重要性比率的邻域算子约束策略更新,确保单调改进和收敛;结合局部转移/奖励损失控制世界模型质量和表示稳定性,提出 DeepSPI 算法在 ALE-57 基准上匹配或超越 PPO 和 DeepMDP。

研究背景与动机

现状: 安全策略改进(SPI)通过约束策略更新来避免灾难性退化,提供理论保证。但经典SPI方法仅适用于离线、表格化RL,要求穷举状态-动作覆盖,无法扩展到高维连续空间。

痛点1 — OOT问题: 当策略偏离行为策略(behavioral policy)和世界模型的训练分布时,模型可能在未探索区域产生"幻觉",导致策略更新失败。例如,模型错误地为未访问状态赋予高奖励(如给一个该产生负奖励的状态标注奖励+20)。

痛点2 — 混淆策略更新: 当策略和表示同时更新时,不良的表示可能将本不相同的状态合并为同一潜在表示。如果在合并表示上改变策略选择,可能在实际中的某些状态产生灾难性负奖励。

核心idea: 将重要性比率(IR)约束作为策略更新的邻域算子,限制新策略与行为策略的偏差在 \([2-C, C]\) 范围内。结合局部奖励和转移损失,同时保证:(1) 世界模型在策略邻域内准确,(2) 表示学习保持Lipschitz稳定性。

方法详解

整体框架

DeepSPI 在 PPO 基础上,将辅助转移/奖励损失直接嵌入策略优化目标,而非作为独立辅助损失。这确保表示更新不会将策略推出安全邻域。

关键设计1: 邻域算子

定义基于IR的邻域 \(\mathcal{N}^C(\pi)\),约束策略更新幅度:

\[\mathcal{N}^C(\pi) = \left\{ \pi' \in \Pi \mid 2 - C \leq D_{\text{IR}}^{\inf}(\pi, \pi') \leq D_{\text{IR}}^{\sup}(\pi, \pi') \leq C \right\}\]

参数 \(C \in (1, 2)\) 控制探索-利用平衡。在此邻域内优化advantage:

\[\pi_{n+1} = \arg\sup_{\pi' \in \mathcal{N}^C(\pi_n)} \mathbb{E}_{s \sim \mu_{\pi_n}} \mathbb{E}_{a \sim \pi'} A^{\pi_n}(s, a)\]

定理1证明序列 \(\{V^{\pi_n}\}\) 单调改进并收敛到 \(V^*\)

关键设计2: 局部损失保证世界模型质量

定义局部奖励损失 \(L_R^\mathcal{B}\) 和转移损失 \(L_P^\mathcal{B}\)(基于Wasserstein距离):

\[L_R^\mathcal{B} = \mathbb{E}_{s,a \sim \mathcal{B}} |R(s,a) - \bar{R}(\bar{s}, a)|, \quad L_P^\mathcal{B} = \mathbb{E}_{s,a \sim \mathcal{B}} \mathcal{W}(\phi_\sharp P(\cdot|s,a), \bar{P}(\cdot|\phi(s), a))\]

定理2证明当IR约束满足时,真实环境与世界模型的回报差异被局部损失线性控制。定理3(Deep SPI定理)可保证安全策略改进。

关键设计3: 统一效用函数

将辅助损失嵌入PPO的advantage函数:

\[U^{\pi_n}(s, a, s') = A^{\pi_n}(s, a) - \alpha_R \cdot \ell_R(s, a) - \alpha_P \cdot \ell_P(s, a, s')\]

\(U\) 替换PPO中所有 \(A\) 的出现,使策略更新自动考虑模型损失。

表示学习保证

定理4证明在损失足够小时,更新后的表示保持近似Lipschitz性:

\[|V^{\bar{\pi}}(s_1) - V^{\bar{\pi}}(s_2)| \leq K_V \cdot \bar{d}(\phi(s_1), \phi(s_2)) + \varepsilon\]

即价值相近的状态在潜在空间中保持接近,避免表示坍塌。

实验关键数据

ALE-57 聚合结果

指标 PPO DeepMDP DeepSPI
Mean 基准 略优于PPO 最优
Median 基准 与PPO相当 最优
IQM 基准 略优于PPO 最优
Optimality Gap↓ 基准 略低于PPO 最低

消融: 世界模型质量(训练过程中位数损失)

指标 DeepMDP DeepSPI
转移损失 \(L_P\) 较高 更低
奖励损失 \(L_R\) 相当 相当

Toy Maze 示例验证

方法 从初始状态I的回报 ⋆状态表示距离
PPO ~4.8(表示坍塌,只能选"右") ~0(合并)
DeepSPI ~8(区分顶/底⋆,正确选择"上") >0(分离)

关键发现

  • DeepSPI 在 ALE-57 所有聚合指标上匹配或超越 PPO 和 DeepMDP
  • DeepSPI 的转移损失一致更低,表明学到了更准确的世界模型
  • 在精心设计的Toy Maze中,DeepSPI 成功避免了表示坍塌,回报提升约67%
  • 未发现转移损失和奖励损失之间的竞争关系(与离线设置不同)
  • DreamSPI(纯模型基规划变体)在部分环境中展现了可行性

亮点与洞察

  1. 理论-实践桥梁: 将离线SPI的严格保证扩展到在线深度RL,4个定理层层递进构建完整框架
  2. OOT和混淆更新的统一解决: 两个看似不同的问题通过同一个IR邻域约束机制同时解决
  3. 嵌入式辅助损失: 将模型损失嵌入advantage而非独立优化,防止表示更新推动策略出界——相比DeepMDP的独立辅助损失更原则性
  4. PPO的理论根基: 证明PPO的clip机制实质上是邻域约束的松弛版本,为其成功提供了SPI视角的解释

局限性 / 可改进方向

  • 聚合结果中与PPO/ DeepMDP的差异需要仔细看置信区间,在部分单独环境上可能无显著差异
  • Lipschitz约束需额外架构设计(GroupSort网络),增加了实现复杂度
  • DreamSPI(纯模型基规划)性能不及在线方法,说明on-policy的世界模型学习+规划仍有挑战
  • 仅在Atari环境测试,连续控制任务(如MuJoCo)的适用性未验证
  • 理论需要 \(\gamma > 1/2\)\(K_{\bar{P}}^{\bar{\pi}} < 1/\gamma\) 等假设,实践中可能不总满足

相关工作与启发

  • 与经典SPI方法(SPIBB、Laroche等)的关系:从离线表格化扩展到在线深度设置
  • 与DeepMDP(Gelada等2019)直接对比:后者不约束策略更新的影响,因此无SPI保证
  • 与PPO/TRPO的正式联系:证明IR邻域约束是clip操作的严格版本
  • 与bisimulation(Castro等)的连接:表示保证与状态抽象中的等价性概念相通

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将SPI保证扩展到在线深度RL的世界模型+表示学习设置
  • 实验充分度: ⭐⭐⭐⭐ — ALE-57全面但仅限Atari域
  • 写作质量: ⭐⭐⭐⭐ — 理论推导严谨,示例直观,但数学密度较高
  • 价值: ⭐⭐⭐⭐⭐ — 为深度RL中的安全性提供了坚实的理论基础和实用算法