Flattening Hierarchies with Policy Bootstrapping¶
会议: NeurIPS 2025
arXiv: 2505.14975
代码: SAW
领域: image_generation
关键词: offline GCRL, hierarchical RL, policy bootstrapping, subgoal, long-horizon control
一句话总结¶
提出 Subgoal Advantage-Weighted Policy Bootstrapping(SAW),通过优势加权的重要性采样对子目标条件策略进行 bootstrapping,将层级 RL 的长距离推理能力蒸馏到一个扁平策略中,无需生成式子目标模型。
研究动机¶
离线目标条件强化学习(Offline GCRL)被视为预训练通用策略的有前途范式,但面临长距离推理的核心挑战:
- 稀疏奖励 + 折扣:远距离目标的原始动作优势信号极弱(action gap 现象)
- 层级 RL(HRL)方法效果好但引入巨大复杂性:
- 需要学习子目标生成模型——在高维状态空间中这是困难的生成建模问题
- 模块化架构固定于特定时间抽象层级,阻碍统一表示
- 子目标表示学习的目标函数选择仍是开放问题
核心问题:能否将层级方法的优势提炼到一个简单的扁平策略中?
方法详解¶
对层级 RL 优势的深层分析¶
以 HIQL(当前 SOTA)为研究对象,发现层级方法的成功源于两个因素:
- 值函数信噪比改善:低层策略评估动作对近距离子目标的优势,信号更清晰
- 更容易采样高优势样本:数据集动作对轨迹中短距离未来状态天然具有高优势,而对远距离目标则很少有高优势动作
层级方法的推理可视为测试时策略 bootstrapping:用高层策略预测子目标,用低层策略的子目标条件分布近似全目标条件策略。
RL 作为概率推断框架¶
引入子目标最优性变量 \(U\),似然函数为:
其中子目标优势 \(A(s_t, w, g) = V(w, g) - V(s_t, g)\)(到 \(w\) 的进展度量)。
考虑因式化层级策略形式,并引入扁平后验 \(q^f(\tau \mid g)\) 和子目标后验 \(q^h(\{w\} \mid g)\),构造 ELBO:
消除子目标生成模型¶
关键洞察:用 Bayes 规则重写最优子目标后验:
这意味着不需要学习子目标生成模型 \(\pi^h\),直接从数据集轨迹中采样子目标,用优势函数加权即可。
SAW 目标函数¶
包含两个互补项: - 一步 AWR 项:直接从值函数获取学习信号,适合需要 stitching 的环境 - 策略 bootstrapping 项:从子策略 \(\pi^{\text{sub}}\) bootstrap,由子目标优势加权
动态平衡:目标越远,动作优势差异越小,自动减弱噪声较大的值函数信号,增大 bootstrapping 权重。
训练流程¶
- 训练值函数 \(V_\phi\)(GCIVL,期望值回归避免 OOD 动作高估)
- 训练目标子策略 \(\pi^{\text{sub}}\)(AWR,仅在近距离目标上)
- 训练扁平策略 \(\pi_\theta\)(SAW 目标,综合一步和 bootstrapping 信号)
实验结果¶
OGBench 20 个数据集、7 个环境、100 个评估任务¶
| 环境 | GCIVL | CRL | HIQL | RIS_off | SAW |
|---|---|---|---|---|---|
| antmaze-medium | 72 | 95 | 96 | 96 | 97 |
| antmaze-large | 16 | 83 | 91 | 89 | 90 |
| antmaze-giant | 0 | 16 | 65 | 65 | 73 |
| humanoidmaze-medium | 24 | 60 | 89 | 73 | 88 |
| humanoidmaze-large | 2 | 24 | 49 | 21 | 46 |
| humanoidmaze-giant | 0 | 3 | 12 | 3 | 35 |
| cube-single | 53 | 19 | 44 | 81 | 72 |
| scene-play | 42 | 19 | 38 | 64 | 63 |
关键发现¶
- humanoidmaze-giant:SAW 是唯一达到非平凡成功率的方法(35% vs HIQL 12%),69 维状态空间+21 DoF 下长距离导航
- 层级方法的子目标表示在高维大状态空间中退化(Figure 3):HIQL 的子目标表示在 giant maze 上严重限制性能,而 SAW 直接在观测空间操作避免了此问题
- 视觉任务(64×64 像素观测)中 SAW 同样保持 SOTA 或接近 SOTA 性能
统一理论视角¶
SAW 的推导自然恢复了三种现有方法作为特殊情况: - HIQL:因式化后验 + 分层训练 - RIS:学习子目标生成器 + 扁平策略回归 - one-step AWR:\(\beta = 0\) 时退化为标准策略提取
评价¶
⭐⭐⭐⭐
优点: - 理论推导清晰优雅,统一框架自然恢复 HIQL、RIS 等方法 - 消除子目标生成模型是实质性简化,避免了高维生成建模的困难 - 在最具挑战的 humanoidmaze-giant 上实现突破性进展(35% vs 12%) - 实验覆盖 20 个数据集/100 个任务,包含状态和视觉两种观测空间
局限: - 子目标仅从数据集轨迹采样,在高度需要 stitching 的 explore 数据集上性能下降 - 值函数训练在超长距离视觉任务(visual-antmaze-giant)上仍会发散 - 仍然依赖 IQL-style 值学习,继承了期望值回归的固有偏差 - 价值: 待评