Bootstrap Off-policy with World Model¶

会议: NeurIPS 2025
arXiv: 2511.00423
代码: molumitu/BOOM_MBRL
领域: reinforcement_learning
关键词: model-based RL, online planning, off-policy learning, actor divergence, world model, MPPI

一句话总结¶

提出 BOOM 框架，通过 bootstrap 对齐回路将在线规划器的高质量动作蒸馏到策略网络，使用 likelihood-free 的前向 KL 散度和软 Q 加权机制，有效缓解规划器与策略之间的 actor divergence 问题，在高维连续控制任务上取得 SOTA。

研究背景与动机¶

在线规划提升 RL 性能：基于学习的世界模型进行前瞻搜索（如 MPPI），可以生成比纯策略网络更高质量的动作，广泛应用于 model-based RL
actor divergence 问题不可避免：训练数据由规划器增强策略 β=π+MPPI 收集，但策略网络 π 与行为策略 β 的分布存在本质差异
价值函数学习偏差：Q 函数在行为策略 β 的分布上训练，对 π 实际访问但 β 很少覆盖的区域容易产生过高估计
策略更新不可靠：基于有偏 Q 值的策略梯度更新会误导策略优化方向，导致训练不稳定和性能退化
规划器输出不可参数化：MPPI 等基于采样的规划器产生的动作分布是非参数的，其似然函数不可解析计算，传统 KL 散度方法无法直接使用
现有方法局限：TD-MPC2 忽视 actor divergence；BMPC 纯模仿规划器但缺乏价值引导，历史动作质量参差不齐时效果受限

方法详解¶

整体框架¶

BOOM 由三个紧密耦合的组件组成——策略网络、在线规划器和世界模型，形成一个 bootstrap 回路：策略为规划器提供初始化解，规划器通过模型预测优化细化动作后反过来指导策略对齐。世界模型以 TD-MPC2 风格联合训练 encoder \(h\)、动力学模型 \(f\)、奖励预测器 \(R\) 和价值函数 \(Q\)，同时服务于规划器的轨迹模拟和策略的价值估计。

关键设计一：Likelihood-Free 对齐损失¶

做什么：让策略 π 对齐规划器 β 的动作分布，将规划器的高质量行为蒸馏到策略网络中
核心思路：采用前向 KL 散度 \(\text{KL}(\beta \| \pi)\) 而非反向 KL，展开后第一项关于 β 的熵与 π 无关可丢弃，最终损失 \(\mathcal{L}_{\text{align}} = -\mathbb{E}[\log \pi(a|s)]\) 只需要计算 π 的对数似然，完全不需要 β 的似然
设计动机：规划器 MPPI 经过加权重采样后的动作分布是非参数的、似然不可计算的，传统反向 KL 需要 \(\beta(a|s)\) 不可行；前向 KL 天然规避了这一问题，提供了简洁有效的对齐机制

关键设计二：软 Q 加权机制¶

做什么：在对齐损失中引入基于 Q 值的软权重，优先对齐高回报动作
核心思路：对 replay buffer 中的每个转移计算 \(w_i = \exp(Q_i/\tau) / \sum_j \exp(Q_j/\tau)\)，加权对齐损失变为 \(\sum_i w_i [-\log \pi(a_i|s_i)]\)，使策略更关注高价值经验
设计动机：replay buffer 中存储了不同时间步规划器产生的历史动作，质量参差不齐（早期规划器较弱）；Q 值加权类似规划器本身的动作选择原则（按价值加权选动作），确保策略从最有价值的经验中学习

关键设计三：Bootstrap 策略目标¶

做什么：将对齐损失与标准 Q 最大化损失结合为统一的策略优化目标
核心思路：\(\mathcal{L}_{\text{policy}} = -\sum[Q(s, \pi(s)) + \lambda_{\text{align}} \cdot \mathcal{L}_{\text{align}}]\)，其中 \(\lambda_{\text{align}} = \dim(\mathcal{A})/1000\)（DMC）或 \(\dim(\mathcal{A})/50\)（Humanoid-Bench）
设计动机：纯 Q 最大化受 actor divergence 导致的值偏差影响；纯模仿规划器则丧失了值函数驱动的优化能力；两者结合兼得 Q 值引导和行为对齐的优势

损失函数与训练¶

世界模型损失：联合训练 encoder、dynamics、reward、Q-value，\(\mathcal{L}_{\text{model}} = \sum \gamma^t [\|f(z_t, a_t) - \text{sg}(h(s'_t))\|_2^2 + \text{CE}(R_t, r_t) + \text{CE}(Q_t, q_t)]\)
策略损失：\(\mathcal{L}_{\text{policy}} = -\sum [Q(s, \pi(s)) + \lambda_{\text{align}} \cdot \sum_i w_i (-\log \pi(a_i|s_i))]\)
训练流程：先用随机动作 warmup 预训练世界模型，然后迭代：规划器收集数据 → 训练世界模型 → bootstrap 策略更新

实验¶

表1：DMC Suite 高维控制任务（总平均回报 TAR，3 seeds）¶

任务	SAC	DreamerV3 (10M)	TD-MPC2	BMPC	BOOM
Humanoid-stand	9.0	717.0	913.3	947.9	962.1
Humanoid-walk	173.8	755.6	884.8	935.1	936.1
Humanoid-run	1.6	353.5	316.2	531.2	582.8
Dog-stand	197.6	35.4	936.4	971.3	986.8
Dog-walk	24.7	9.1	885.0	942.9	965.4
Dog-trot	67.1	8.4	884.4	911.3	947.9
Dog-run	16.5	4.3	427.0	673.7	820.7
平均	58.8	269.0	745.6	835.8	877.7

BOOM 在所有 7 个高维 DMC 任务上均取得最优，平均 TAR 877.7 较 BMPC 提升 +5.0%，较 TD-MPC2 提升 +17.7%。Dog-run 上领先次优 +21.8%。

表2：Humanoid Bench 任务（总平均回报 TAR，3 seeds）¶

任务	SAC	DreamerV3 (10M)	TD-MPC2	BMPC	BOOM
H1hand-stand	74.1	845.4	728.7	780.0	926.1
H1hand-walk	27.0	744.0	644.2	672.6	935.4
H1hand-run	14.1	622.4	66.1	236.0	682.2
H1hand-sit	268.4	699.1	693.7	688.2	918.1
H1hand-slide	19.0	367.6	141.3	440.1	926.1
H1hand-pole	122.5	577.4	207.5	739.9	930.5
H1hand-hurdle	12.9	135.7	59.0	197.1	435.6
平均	68.5	555.6	338.8	511.7	820.6

BOOM 在 H-Bench 全部 7 个任务上均为最优，平均 TAR 820.6 较 DreamerV3 (10M) 提升 +47.7%，较 BMPC 提升 +60.5%。H1hand-slide 上提升 +110.5%，H1hand-hurdle 上提升 +121.0%。

消融实验¶

对齐度量：前向 KL（likelihood-free）优于反向 KL（需近似 β 的似然），验证了避免似然估计的必要性
Q 加权机制：去掉 Q 加权改用均匀加权后性能和收敛速度均下降，说明价值引导对处理历史动作质量差异至关重要
对齐系数 \(\lambda_{\text{align}}\)：在 0.1× 到 10× 默认值范围内性能稳定，对超参鲁棒

亮点¶

清晰定义了 planning + off-policy RL 中 actor divergence 的两个后果（值偏差和策略误导），问题分析深入
Likelihood-free 的前向 KL 对齐避免了规划器非参数分布似然不可计算的难题，方法简洁优雅
提供了理论保证：bootstrap 对齐控制 return gap（Theorem 1）和 Q-value gap（Theorem 2）
在 14 个高维任务上全面 SOTA，部分任务提升超过 100%，说服力强
实现简单，在 TD-MPC2 基础上只需增加一个对齐损失项

局限性¶

仍依赖 MPPI 规划器的质量，如果 world model 学习不好，规划器产生的对齐目标本身就有问题
前向 KL（mode-covering）倾向于让策略过度覆盖规划器分布，可能导致策略过于保守
对齐系数 \(\lambda_{\text{align}}\) 在 DMC 和 H-Bench 上使用不同公式，需要根据任务特性调整
仅在连续控制 locomotion 任务上验证，缺乏操作（manipulation）、导航等其他类型任务的评估
缺少与最新 imagination-driven 方法（如 DreamerV3 的改进版）以及 offline RL 方法的对比

评分¶

新颖性: ⭐⭐⭐⭐ — 问题定义清晰，likelihood-free 对齐方案简洁有效，有理论支撑
实验充分度: ⭐⭐⭐⭐ — 14 个高维任务全面 SOTA，消融完整，但任务类型偏单一
写作质量: ⭐⭐⭐⭐ — 问题动机推导流畅，理论分析与实验互相印证
价值: ⭐⭐⭐⭐ — 为 planning + off-policy RL 的 actor divergence 问题提供了实用解决方案