Flattening Hierarchies with Policy Bootstrapping¶

会议: NeurIPS 2025
arXiv: 2505.14975
代码: SAW
领域: image_generation
关键词: offline GCRL, hierarchical RL, policy bootstrapping, subgoal, long-horizon control

一句话总结¶

提出 Subgoal Advantage-Weighted Policy Bootstrapping（SAW），通过优势加权的重要性采样对子目标条件策略进行 bootstrapping，将层级 RL 的长距离推理能力蒸馏到一个扁平策略中，无需生成式子目标模型。

研究动机¶

离线目标条件强化学习（Offline GCRL）被视为预训练通用策略的有前途范式，但面临长距离推理的核心挑战：

稀疏奖励 + 折扣：远距离目标的原始动作优势信号极弱（action gap 现象）
层级 RL（HRL）方法效果好但引入巨大复杂性：
需要学习子目标生成模型——在高维状态空间中这是困难的生成建模问题
模块化架构固定于特定时间抽象层级，阻碍统一表示
子目标表示学习的目标函数选择仍是开放问题

核心问题：能否将层级方法的优势提炼到一个简单的扁平策略中？

方法详解¶

对层级 RL 优势的深层分析¶

以 HIQL（当前 SOTA）为研究对象，发现层级方法的成功源于两个因素：

值函数信噪比改善：低层策略评估动作对近距离子目标的优势，信号更清晰
更容易采样高优势样本：数据集动作对轨迹中短距离未来状态天然具有高优势，而对远距离目标则很少有高优势动作

层级方法的推理可视为测试时策略 bootstrapping：用高层策略预测子目标，用低层策略的子目标条件分布近似全目标条件策略。

RL 作为概率推断框架¶

引入子目标最优性变量 \(U\)，似然函数为：

\[p(U=1 \mid \tau, \{w\}, g) \propto \exp\left(\beta \sum_{t=0}^{\infty} \gamma^t A(s_t, w_t, g)\right)\]

其中子目标优势 \(A(s_t, w, g) = V(w, g) - V(s_t, g)\)（到 \(w\) 的进展度量）。

考虑因式化层级策略形式，并引入扁平后验 \(q^f(\tau \mid g)\) 和子目标后验 \(q^h(\{w\} \mid g)\)，构造 ELBO：

\[\mathcal{J}(q, \pi) = \mathbb{E}_{\mu(s), p(g)}\left[\mathbb{E}_{q^h(w|s,g)}[A(s,w,g)] - \mathbb{E}_{q^h}[D_{\text{KL}}(q^f \| \pi^\ell)] - \mathbb{E}_{q^f}[D_{\text{KL}}(q^h \| \pi^h)]\right]\]

消除子目标生成模型¶

关键洞察：用 Bayes 规则重写最优子目标后验：

\[p(w \mid s, g, U=1) \propto p^{\mathcal{D}}(w \mid s) \exp(A(s, w, g))\]

这意味着不需要学习子目标生成模型 \(\pi^h\)，直接从数据集轨迹中采样子目标，用优势函数加权即可。

SAW 目标函数¶

\[\mathcal{J}(\theta) = \mathbb{E}_{p^{\mathcal{D}}(s,a,w), p(g)}\left[e^{\alpha A(s,a,g)} \log \pi_\theta(a \mid s, g) - e^{\beta A(s,w,g)} D_{\text{KL}}(\pi_\theta(a \mid s, g) \| \pi^{\text{sub}}(a \mid s, w))\right]\]

包含两个互补项： - 一步 AWR 项：直接从值函数获取学习信号，适合需要 stitching 的环境 - 策略 bootstrapping 项：从子策略 \(\pi^{\text{sub}}\) bootstrap，由子目标优势加权

动态平衡：目标越远，动作优势差异越小，自动减弱噪声较大的值函数信号，增大 bootstrapping 权重。

训练流程¶

训练值函数 \(V_\phi\)（GCIVL，期望值回归避免 OOD 动作高估）
训练目标子策略 \(\pi^{\text{sub}}\)（AWR，仅在近距离目标上）
训练扁平策略 \(\pi_\theta\)（SAW 目标，综合一步和 bootstrapping 信号）

实验结果¶

OGBench 20 个数据集、7 个环境、100 个评估任务¶

环境	GCIVL	CRL	HIQL	RIS_off	SAW
antmaze-medium	72	95	96	96	97
antmaze-large	16	83	91	89	90
antmaze-giant	0	16	65	65	73
humanoidmaze-medium	24	60	89	73	88
humanoidmaze-large	2	24	49	21	46
humanoidmaze-giant	0	3	12	3	35
cube-single	53	19	44	81	72
scene-play	42	19	38	64	63

关键发现¶

humanoidmaze-giant：SAW 是唯一达到非平凡成功率的方法（35% vs HIQL 12%），69 维状态空间+21 DoF 下长距离导航
层级方法的子目标表示在高维大状态空间中退化（Figure 3）：HIQL 的子目标表示在 giant maze 上严重限制性能，而 SAW 直接在观测空间操作避免了此问题
视觉任务（64×64 像素观测）中 SAW 同样保持 SOTA 或接近 SOTA 性能

统一理论视角¶

SAW 的推导自然恢复了三种现有方法作为特殊情况： - HIQL：因式化后验 + 分层训练 - RIS：学习子目标生成器 + 扁平策略回归 - one-step AWR：\(\beta = 0\) 时退化为标准策略提取

评价¶

⭐⭐⭐⭐

优点： - 理论推导清晰优雅，统一框架自然恢复 HIQL、RIS 等方法 - 消除子目标生成模型是实质性简化，避免了高维生成建模的困难 - 在最具挑战的 humanoidmaze-giant 上实现突破性进展（35% vs 12%） - 实验覆盖 20 个数据集/100 个任务，包含状态和视觉两种观测空间

局限： - 子目标仅从数据集轨迹采样，在高度需要 stitching 的 explore 数据集上性能下降 - 值函数训练在超长距离视觉任务（visual-antmaze-giant）上仍会发散 - 仍然依赖 IQL-style 值学习，继承了期望值回归的固有偏差 - 价值: 待评