Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals¶

会议: ICML 2025
arXiv: 2505.21750
代码: 无
领域: 强化学习
关键词: 分层强化学习, 扩散模型, 高斯过程, 子目标生成, 不确定性

一句话总结¶

提出将条件扩散模型与高斯过程先验相结合的分层强化学习框架，通过不确定性感知的子目标生成机制，解决高层策略在低层策略动态变化时难以产生有效子目标的核心难题。

研究背景与动机¶

领域现状：分层强化学习（HRL）将复杂决策分解为高层目标设定与低层执行两个层级，是解决长视野稀疏奖励问题的主流范式。现有方法如 HIRO 和 HAC 使用确定性或简单高斯分布生成子目标。

现有痛点：HRL 面临一个根本性的非平稳性问题——低层策略在训练过程中不断变化，这意味着同一子目标在不同训练阶段可能对应完全不同的行为。高层策略必须在一个持续漂移的目标空间中做决策，但现有方法对子目标生成的不确定性缺乏建模。

核心矛盾：高层策略需要生成足够多样的子目标以探索有效策略，但同时又需要保证子目标对低层策略实际可达。这两个需求在训练过程中因低层策略的动态变化而持续冲突。

本文目标 设计一种既能捕捉复杂子目标分布又能量化生成不确定性的高层策略，使分层系统在低层策略演化过程中保持稳定且高效的学习。

切入角度：利用扩散模型强大的分布建模能力生成多样化子目标，同时引入高斯过程先验提供不确定性量化和轨迹对齐约束。

核心 idea：用高斯过程先验正则化条件扩散模型，使子目标生成兼具表达力（扩散模型的多模态建模）和可靠性（GP 的不确定性量化）。

方法详解¶

整体框架¶

系统由三个核心组件组成：（1）条件扩散子目标生成器，以当前状态为条件生成候选子目标；（2）高斯过程先验模块，对可行子目标轨迹建模并提供不确定性估计；（3）混合子目标选择机制，结合 GP 预测均值（可行性）和扩散样本（多样性）最终确定子目标。低层策略接收子目标 \(g_t\) 后执行固定步数的动作，使用内在奖励 \(r_t^l = -\|s_t + g_t - s_{t+1}\|_2\) 进行训练，引导智能体向子目标移动。高层策略每 \(c\) 步根据环境反馈更新子目标。

关键设计¶

GP 正则化的条件扩散模型 (GP-Regularized Conditional Diffusion):
- 功能：生成多样且可行的子目标分布
- 核心思路：训练一个条件扩散模型 \(p_\theta(g | s)\) 生成子目标，同时用 GP 先验 \(\mathcal{GP}(\mu, k)\) 对扩散过程施加正则化约束。扩散模型的 ELBO 目标中加入 GP 对数似然项，使生成的子目标分布与历史成功轨迹的 GP 后验保持一致
- 设计动机：单独的扩散模型虽然能建模复杂分布，但在训练早期可能生成大量不可行子目标。GP 先验利用已有经验提供"软约束"，引导扩散模型在可行区域内生成子目标，同时不牺牲分布的多模态表达能力
不确定性感知的子目标选择 (Uncertainty-Guided Subgoal Selection):
- 功能：在探索与利用之间动态平衡
- 核心思路：从扩散模型采样 \(N\) 个候选子目标，用 GP 后验对每个候选评估其预测均值 \(\mu(g)\)（可行性得分）和预测方差 \(\sigma^2(g)\)（不确定性）。最终选择综合得分 \(\mu(g) + \beta \sigma(g)\) 最高的子目标，其中 \(\beta\) 控制探索-利用平衡
- 设计动机：训练初期 GP 先验不确定性高，\(\sigma(g)\) 主导选择，鼓励探索；随着经验积累 GP 后验收紧，\(\mu(g)\) 主导选择，转向利用。这种自适应机制避免了手动设计探索调度
内在奖励与轨迹对齐 (Intrinsic Reward & Trajectory Alignment):
- 功能：训练低层策略向子目标移动，并确保 GP 先验与实际轨迹一致
- 核心思路：低层策略使用距离驱动的内在奖励 \(r_t^l = -\|s_t + g_t - s_{t+1}\|_2\)。同时 GP 核函数基于状态空间中的实际轨迹距离构建，使得 GP 后验能准确反映不同子目标之间的可达性关系
- 设计动机：内在奖励提供稠密的训练信号解决稀疏奖励问题；GP 轨迹对齐确保不确定性量化是基于真实动力学而非任意度量空间

损失函数 / 训练策略¶

高层策略的损失由两部分组成：扩散模型的去噪损失 \(L_{\text{diff}} = \mathbb{E}_{t, g_0, \epsilon}[\|\epsilon - \epsilon_\theta(g_t, t, s)\|^2]\)，以及 GP 正则化项 \(L_{\text{GP}} = -\log p_{\text{GP}}(g_0 | \mathcal{D})\)，其中 \(\mathcal{D}\) 为历史轨迹缓冲。总损失为 \(L = L_{\text{diff}} + \lambda L_{\text{GP}}\)。低层策略使用标准 off-policy RL 算法（TD3/SAC）训练，以内在奖励和环境奖励的加权和为目标。GP 超参数通过边际似然最大化在线更新。

实验关键数据¶

主实验¶

环境	本方法	HIRO	HAC	HRAC	RIG	指标
Ant Maze	0.92	0.68	0.71	0.78	0.62	成功率
Ant Push	0.85	0.52	0.58	0.64	0.48	成功率
Ant Fall	0.73	0.31	0.38	0.45	0.29	成功率
Reacher	-3.2	-5.8	-4.9	-4.1	-6.2	负距离
Pusher	-12.5	-22.3	-18.7	-15.6	-24.1	累积奖励

所有结果为 5 次独立运行均值。本方法在全部连续控制基准上达到最优。

消融实验¶

变体	Ant Maze 成功率	Ant Push 成功率	样本效率提升	说明
Full (Diffusion + GP)	0.92	0.85	1.0x (基准)	完整方法
仅 Diffusion (无 GP)	0.81	0.72	0.7x	探索过度，可行性下降
仅 GP (无 Diffusion)	0.74	0.65	0.6x	分布建模不足
确定性子目标	0.68	0.55	0.5x	无法捕捉多模态分布
无内在奖励	0.45	0.32	0.3x	低层策略训练困难

关键发现¶

扩散模型提供了最大的样本效率增益，验证了复杂子目标分布建模的重要性
GP 先验的主要贡献在于学习稳定性——减少了不同随机种子间的方差
组合子目标选择（GP 均值 + 扩散样本）显著优于任何单一来源的选择策略
在最具挑战性的 Ant Fall 环境中（需要跨越间隙），本方法的优势最为显著，相对 HIRO 提升超过 130%

亮点与洞察¶

创新性地将生成模型（扩散）和贝叶斯方法（GP）在 HRL 中统一起来，各取所长
不确定性感知的子目标选择实现了自然的探索-利用平衡，无需手动退火调度
GP 先验在扩散训练中起到课程学习的效果：早期约束生成空间，晚期退化为弱正则
方法论上的贡献可迁移到其他需要"多样性+可行性"平衡的生成决策问题

局限与展望¶

GP 的计算复杂度为 \(O(n^3)\)，随历史轨迹增长可能成为瓶颈，需要稀疏 GP 近似
扩散模型的多步采样在子目标生成频率较高时可能引入延迟，需要与一致性模型等加速方法结合
实验主要在 MuJoCo 连续控制环境中验证，在离散动作空间或更复杂的机器人任务中效果未知
GP 核函数的选择（RBF vs Matérn 等）对性能的影响没有充分讨论

评分¶

新颖性: ⭐⭐⭐⭐ 扩散模型 + GP 的组合在 HRL 中是首次，不确定性引导子目标选择思路新颖
实验充分度: ⭐⭐⭐⭐ 多个连续控制环境上的全面对比和详细消融
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法各组件的作用解释充分
价值: ⭐⭐⭐⭐ 为 HRL 中的子目标生成问题提供了新范式，扩散+贝叶斯的组合有广泛借鉴意义