Bootstrap Off-policy with World Model¶
会议: NeurIPS 2025
arXiv: 2511.00423
代码: molumitu/BOOM_MBRL
领域: reinforcement_learning
关键词: model-based RL, online planning, off-policy learning, actor divergence, world model, MPPI
一句话总结¶
提出 BOOM 框架,通过 bootstrap 对齐回路将在线规划器的高质量动作蒸馏到策略网络,使用 likelihood-free 的前向 KL 散度和软 Q 加权机制,有效缓解规划器与策略之间的 actor divergence 问题,在高维连续控制任务上取得 SOTA。
研究背景与动机¶
- 在线规划提升 RL 性能:基于学习的世界模型进行前瞻搜索(如 MPPI),可以生成比纯策略网络更高质量的动作,广泛应用于 model-based RL
- actor divergence 问题不可避免:训练数据由规划器增强策略 β=π+MPPI 收集,但策略网络 π 与行为策略 β 的分布存在本质差异
- 价值函数学习偏差:Q 函数在行为策略 β 的分布上训练,对 π 实际访问但 β 很少覆盖的区域容易产生过高估计
- 策略更新不可靠:基于有偏 Q 值的策略梯度更新会误导策略优化方向,导致训练不稳定和性能退化
- 规划器输出不可参数化:MPPI 等基于采样的规划器产生的动作分布是非参数的,其似然函数不可解析计算,传统 KL 散度方法无法直接使用
- 现有方法局限:TD-MPC2 忽视 actor divergence;BMPC 纯模仿规划器但缺乏价值引导,历史动作质量参差不齐时效果受限
方法详解¶
整体框架¶
BOOM 由三个紧密耦合的组件组成——策略网络、在线规划器和世界模型,形成一个 bootstrap 回路:策略为规划器提供初始化解,规划器通过模型预测优化细化动作后反过来指导策略对齐。世界模型以 TD-MPC2 风格联合训练 encoder \(h\)、动力学模型 \(f\)、奖励预测器 \(R\) 和价值函数 \(Q\),同时服务于规划器的轨迹模拟和策略的价值估计。
关键设计一:Likelihood-Free 对齐损失¶
- 做什么:让策略 π 对齐规划器 β 的动作分布,将规划器的高质量行为蒸馏到策略网络中
- 核心思路:采用前向 KL 散度 \(\text{KL}(\beta \| \pi)\) 而非反向 KL,展开后第一项关于 β 的熵与 π 无关可丢弃,最终损失 \(\mathcal{L}_{\text{align}} = -\mathbb{E}[\log \pi(a|s)]\) 只需要计算 π 的对数似然,完全不需要 β 的似然
- 设计动机:规划器 MPPI 经过加权重采样后的动作分布是非参数的、似然不可计算的,传统反向 KL 需要 \(\beta(a|s)\) 不可行;前向 KL 天然规避了这一问题,提供了简洁有效的对齐机制
关键设计二:软 Q 加权机制¶
- 做什么:在对齐损失中引入基于 Q 值的软权重,优先对齐高回报动作
- 核心思路:对 replay buffer 中的每个转移计算 \(w_i = \exp(Q_i/\tau) / \sum_j \exp(Q_j/\tau)\),加权对齐损失变为 \(\sum_i w_i [-\log \pi(a_i|s_i)]\),使策略更关注高价值经验
- 设计动机:replay buffer 中存储了不同时间步规划器产生的历史动作,质量参差不齐(早期规划器较弱);Q 值加权类似规划器本身的动作选择原则(按价值加权选动作),确保策略从最有价值的经验中学习
关键设计三:Bootstrap 策略目标¶
- 做什么:将对齐损失与标准 Q 最大化损失结合为统一的策略优化目标
- 核心思路:\(\mathcal{L}_{\text{policy}} = -\sum[Q(s, \pi(s)) + \lambda_{\text{align}} \cdot \mathcal{L}_{\text{align}}]\),其中 \(\lambda_{\text{align}} = \dim(\mathcal{A})/1000\)(DMC)或 \(\dim(\mathcal{A})/50\)(Humanoid-Bench)
- 设计动机:纯 Q 最大化受 actor divergence 导致的值偏差影响;纯模仿规划器则丧失了值函数驱动的优化能力;两者结合兼得 Q 值引导和行为对齐的优势
损失函数与训练¶
- 世界模型损失:联合训练 encoder、dynamics、reward、Q-value,\(\mathcal{L}_{\text{model}} = \sum \gamma^t [\|f(z_t, a_t) - \text{sg}(h(s'_t))\|_2^2 + \text{CE}(R_t, r_t) + \text{CE}(Q_t, q_t)]\)
- 策略损失:\(\mathcal{L}_{\text{policy}} = -\sum [Q(s, \pi(s)) + \lambda_{\text{align}} \cdot \sum_i w_i (-\log \pi(a_i|s_i))]\)
- 训练流程:先用随机动作 warmup 预训练世界模型,然后迭代:规划器收集数据 → 训练世界模型 → bootstrap 策略更新
实验¶
表1:DMC Suite 高维控制任务(总平均回报 TAR,3 seeds)¶
| 任务 | SAC | DreamerV3 (10M) | TD-MPC2 | BMPC | BOOM |
|---|---|---|---|---|---|
| Humanoid-stand | 9.0 | 717.0 | 913.3 | 947.9 | 962.1 |
| Humanoid-walk | 173.8 | 755.6 | 884.8 | 935.1 | 936.1 |
| Humanoid-run | 1.6 | 353.5 | 316.2 | 531.2 | 582.8 |
| Dog-stand | 197.6 | 35.4 | 936.4 | 971.3 | 986.8 |
| Dog-walk | 24.7 | 9.1 | 885.0 | 942.9 | 965.4 |
| Dog-trot | 67.1 | 8.4 | 884.4 | 911.3 | 947.9 |
| Dog-run | 16.5 | 4.3 | 427.0 | 673.7 | 820.7 |
| 平均 | 58.8 | 269.0 | 745.6 | 835.8 | 877.7 |
BOOM 在所有 7 个高维 DMC 任务上均取得最优,平均 TAR 877.7 较 BMPC 提升 +5.0%,较 TD-MPC2 提升 +17.7%。Dog-run 上领先次优 +21.8%。
表2:Humanoid Bench 任务(总平均回报 TAR,3 seeds)¶
| 任务 | SAC | DreamerV3 (10M) | TD-MPC2 | BMPC | BOOM |
|---|---|---|---|---|---|
| H1hand-stand | 74.1 | 845.4 | 728.7 | 780.0 | 926.1 |
| H1hand-walk | 27.0 | 744.0 | 644.2 | 672.6 | 935.4 |
| H1hand-run | 14.1 | 622.4 | 66.1 | 236.0 | 682.2 |
| H1hand-sit | 268.4 | 699.1 | 693.7 | 688.2 | 918.1 |
| H1hand-slide | 19.0 | 367.6 | 141.3 | 440.1 | 926.1 |
| H1hand-pole | 122.5 | 577.4 | 207.5 | 739.9 | 930.5 |
| H1hand-hurdle | 12.9 | 135.7 | 59.0 | 197.1 | 435.6 |
| 平均 | 68.5 | 555.6 | 338.8 | 511.7 | 820.6 |
BOOM 在 H-Bench 全部 7 个任务上均为最优,平均 TAR 820.6 较 DreamerV3 (10M) 提升 +47.7%,较 BMPC 提升 +60.5%。H1hand-slide 上提升 +110.5%,H1hand-hurdle 上提升 +121.0%。
消融实验¶
- 对齐度量:前向 KL(likelihood-free)优于反向 KL(需近似 β 的似然),验证了避免似然估计的必要性
- Q 加权机制:去掉 Q 加权改用均匀加权后性能和收敛速度均下降,说明价值引导对处理历史动作质量差异至关重要
- 对齐系数 \(\lambda_{\text{align}}\):在 0.1× 到 10× 默认值范围内性能稳定,对超参鲁棒
亮点¶
- 清晰定义了 planning + off-policy RL 中 actor divergence 的两个后果(值偏差和策略误导),问题分析深入
- Likelihood-free 的前向 KL 对齐避免了规划器非参数分布似然不可计算的难题,方法简洁优雅
- 提供了理论保证:bootstrap 对齐控制 return gap(Theorem 1)和 Q-value gap(Theorem 2)
- 在 14 个高维任务上全面 SOTA,部分任务提升超过 100%,说服力强
- 实现简单,在 TD-MPC2 基础上只需增加一个对齐损失项
局限性¶
- 仍依赖 MPPI 规划器的质量,如果 world model 学习不好,规划器产生的对齐目标本身就有问题
- 前向 KL(mode-covering)倾向于让策略过度覆盖规划器分布,可能导致策略过于保守
- 对齐系数 \(\lambda_{\text{align}}\) 在 DMC 和 H-Bench 上使用不同公式,需要根据任务特性调整
- 仅在连续控制 locomotion 任务上验证,缺乏操作(manipulation)、导航等其他类型任务的评估
- 缺少与最新 imagination-driven 方法(如 DreamerV3 的改进版)以及 offline RL 方法的对比
相关工作¶
- Planning-driven MBRL:TD-MPC/TD-MPC2 联合学习世界模型和策略,用 MPPI 规划收集数据;BMPC 在此基础上加入规划器动作的模仿和重标注
- Imagination-driven MBRL:DreamerV3 通过世界模型内部 rollout 训练策略,不依赖在线规划但样本效率受限
- Off-policy RL:SAC 等方法面临从 replay buffer 学习时的分布偏移问题,与本文讨论的 actor divergence 本质相关
- 行为克隆与策略蒸馏:本文的对齐损失可视为从规划器到策略的在线蒸馏,与 offline RL 中的 behavior cloning 正则化思路类似
评分¶
- 新颖性: ⭐⭐⭐⭐ — 问题定义清晰,likelihood-free 对齐方案简洁有效,有理论支撑
- 实验充分度: ⭐⭐⭐⭐ — 14 个高维任务全面 SOTA,消融完整,但任务类型偏单一
- 写作质量: ⭐⭐⭐⭐ — 问题动机推导流畅,理论分析与实验互相印证
- 价值: ⭐⭐⭐⭐ — 为 planning + off-policy RL 的 actor divergence 问题提供了实用解决方案