跳转至

Improving Planning and MBRL with Temporally-Extended Actions

会议: NeurIPS 2025
arXiv: 2505.15754
代码: 无
领域: reinforcement_learning
关键词: temporally-extended actions, model-based RL, planning, action duration, multi-armed bandit

一句话总结

本文提出在 shooting-based 规划和 MBRL 中将动作持续时间作为额外优化变量,配合 MAB 自动选择持续时间范围,在多个环境中显著加速规划并解决标准方法无法解决的困难任务。

研究背景与动机

  1. 领域现状:连续系统常用离散时间近似,仿真步长 \(\delta_t\) 小导致规划 horizon \(D\) 需要很长,给 CEM/MPPI 带来计算负担。
  2. 现有痛点:frame-skip 最优值因环境而异。Model-free RL 有学习 frame-skip 的工作,但无人在规划/MBRL 中解决。长 rollout 导致 compounding error。
  3. 核心矛盾:小 \(\delta_t\) 保证精度但搜索空间大;大 frame-skip 减少搜索但不灵活。
  4. 本文要解决什么? 让 planner 每步同时优化动作和持续时间 \(\delta t_k \in [\delta t_{\min}, \delta t_{\max}]\)
  5. 切入角度\(\delta t\) 作为连续优化变量 + MAB 自动选择 \(\delta t_{\max}\)
  6. 核心idea一句话:动作持续时间作为 planner 优化变量 + 学习的 TE 动力学模型 + MAB 自动范围选择。

方法详解

整体框架

CEM 每决策步输出 \((a_k, \delta t_k)\)。回报:\(J_2 = \sum_k \gamma^{e_{<k}} \sum_t \gamma^{t-1} \mathcal{R}(s,a)\),其中 \(e_k = \lfloor \delta t_k / \delta_t^{\text{env}} \rfloor\)。支持双折扣 \(\gamma_1, \gamma_2\)

关键设计

  1. 时间扩展动力学模型 \(\hat{F}_{\text{TE}}\):
  2. 输入 \((s, a, \delta t)\),输出下一状态分布+奖励
  3. 推理时间恒定(vs 迭代式 \(F_{\text{IP}}\)\(\delta t\) 线性增长)
  4. 更短 rollout 减少 compounding error

  5. MAB 自动选择 \(\delta t_{\max}\):

  6. \(m = \log_2(T)\) 个指数间隔候选值
  7. UCB + EMA:\(\arg\max_i (\hat{R}_{i,T} + c\sqrt{2\log T / N(i,T)})\)
  8. 每个候选维护独立数据集和模型

  9. 搜索空间分析:

  10. 原始:搜索 \(|\mathcal{A}|^H\),优化 \(H|\mathcal{A}|\) 变量
  11. TE(\(m\) 倍):搜索 \(|\mathcal{A}|^{H/m}\),优化 \((H/m)(|\mathcal{A}|+1)\) 变量

实验关键数据

规划实验(精确动力学)

环境 标准 TE 改进
Mountain Car \(D \geq 60\) \(D_{\text{TE}} \geq 4\) 即解 horizon 缩减 15x
Multi-hill MC (5实例) 仅解 1/5 全部解决 解决不可行问题
Dubins Car (102维) 内存不足 4GB 103MB 成功 内存减 40x

MBRL 实验

环境 PETS TE(F) TE(D) 最大提升
Reacher -6.5 -4.2 -4.5 +35%
HalfCheetah ~4900 ~6100 ~5800 +24%
Hopper ~230 ~680 ~350 +195%
Walker ~420 ~610 ~540 +45%

消融实验

配置 效果
\(\gamma_1\) 固定, \(\gamma_2\) 减小 决策步增加,总步不变
\(\gamma_2\) 固定, \(\gamma_1\) 减小 总步减少
共享 vs 独立模型 独立模型更优
TE(F) vs TE(D) MAB 自动选择接近手动最优

关键发现

  • 稀疏奖励环境优势巨大:浅 depth 实现深搜索
  • MBRL 优势:短 rollout 减少 compounding error + 更快收敛
  • Hopper 改善最大 (+195%)
  • MAB 消除手动调参需求

亮点与洞察

  • 简洁强大:仅增一个优化维度就大幅改变 planner 能力边界
  • MAB 超参自动化:EMA + UCB 解决非平稳问题
  • 搜索空间分析\(2^H\) vs \(2^{H/m}\) 直观
  • 可迁移到"时间分辨率 vs 搜索深度" trade-off 的任何系统

局限性 / 可改进方向

  • \(\hat{F}_{\text{TE}}\) 对长持续时间动作的预测精度有挑战——预测从 \(s\) 经过 \(e_k\) 步到达的状态比单步预测本质上更难
  • 独立维护多个模型(每个 \(\delta t_{\max}\) 候选)增加了内存和训练时间开销
  • 仅在 shooting-based planners(CEM)上验证,未在 gradient-based 方法或 tree-search(MCTS)中测试
  • 缺乏理论分析——时间扩展动作在什么条件下保证不损失最优性?误差传播如何与 \(\delta t\) 关系?
  • 双折扣因子 \(\gamma_1, \gamma_2\) 虽然默认相等即可,但引入了额外自由度

两种变体对比

特性 \(A_{\text{TE}}\)(F) 固定范围 \(A_{\text{TE}}\)(D) 动态选择
\(\delta t_{\max}\) 手动设定 MAB 自动选择
模型数量 1 个 \(m = \log_2(T)\)
数据集 共享 每个候选独立
调参需求 需调 \(\delta t_{\max}\) 无(MAB 自动化)
性能 手调最优时略好 接近手调最优,更鲁棒

相关工作与启发

  • vs PETS (Chua et al. 2018):在 PETS 上增加 TE + MAB,架构变化最小
  • vs Ni & Jang (2022):model-free 学 timescale,本文 MBRL 直接优化 duration
  • vs Options (Sutton et al. 1999):Options 需学 initiation + termination,本文更轻量

评分

  • 新颖性: ⭐⭐⭐⭐ 在 MBRL/planning 中首次系统研究动作持续时间优化
  • 实验充分度: ⭐⭐⭐⭐⭐ 两大场景 7+ 环境,消融完整
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,notation 一致
  • 价值: ⭐⭐⭐⭐ 实用性强,可直接集成到现有 MBRL 框架