跳转至

Reinforcement Learning with Action Chunking

会议: NeurIPS 2025

arXiv: 2507.07969

代码: 无

领域: 强化学习

关键词: 动作分块, Q-learning, 离线到在线RL, 稀疏奖励, 操作任务

一句话总结

提出 Q-chunking,将动作分块技术从模仿学习推广到基于 TD 的强化学习方法中,通过在"分块"动作空间上直接运行 RL 来改善长horizon稀疏奖励任务的探索和学习效率。

研究背景与动机

在离线到在线 RL 设置中,如何利用离线先验数据最大化在线学习的样本效率是核心挑战。动作分块(action chunking)是模仿学习中常用的技术——预测未来一段动作序列而非单步动作。

关键动机:

探索困难: 长 horizon 稀疏奖励任务中,随机探索几乎不可能到达目标

离线数据利用不足: 现有方法在利用离线数据获得良好探索策略方面不够有效

动作分块的 RL 潜力未被开发: 在模仿学习中,ACT等方法已证明动作分块的价值,但 TD 学习中尚未系统研究

时序一致性: 逐步预测动作导致行为的时序不连续,不利于机器人操作等任务

方法详解

整体框架

Q-chunking 通过将动作空间从单步动作 \(a_t\) 扩展为动作序列 \(\mathbf{a}_t = (a_t, a_{t+1}, \ldots, a_{t+H-1})\),在这个"分块"空间上直接运行 Q-learning。

关键设计

1. 分块动作空间

  • \(H\) 步动作打包为一个"宏动作": \(\mathbf{a} = (a_0, a_1, \ldots, a_{H-1})\)
  • Q 函数定义在分块动作上: \(Q(s, \mathbf{a})\)
  • 策略输出分块动作: \(\pi(\mathbf{a} | s)\)

2. 无偏 n-step 回报

  • 分块动作天然对应 \(H\)-step TD 目标
  • \(Q(s_t, \mathbf{a}_t) \leftarrow \sum_{k=0}^{H-1} \gamma^k r_{t+k} + \gamma^H \max_{\mathbf{a}'} Q(s_{t+H}, \mathbf{a}')\)
  • 与标准多步回报不同,这里的 \(H\)-step 是无偏的(因为动作序列完整执行)
  • 避免了重要性采样或截断带来的偏差

3. 离线到在线转换

  • 离线阶段: 在离线数据中的动作分块上训练 Q 函数和策略
  • 在线阶段: 利用从离线数据习得的时序一致行为模式进行探索
  • 关键洞察: 离线数据中的分块动作提供了较的时序一致探索策略

损失函数 / 训练策略

  • 离线阶段: CQL 风格的保守 Q-learning + 分块动作空间
  • 在线阶段: SAC/TD3 风格的在线微调
  • 分块大小 \(H\): 作为超参数,通常取 5-20

实验关键数据

主实验

长 horizon 操作任务 (归一化成功率, 100K 在线步):

方法 Nut Assembly Pick-Place Stack Can 平均
CQL → SAC 12% 25% 8% 35% 20.0%
IQL → SAC 18% 32% 12% 42% 26.0%
Cal-QL 22% 38% 15% 48% 30.8%
RLPD 28% 42% 18% 52% 35.0%
Q-chunking (Ours) 45% 62% 35% 72% 53.5%

纯离线性能比较:

方法 Nut Assembly Pick-Place Stack Can
CQL 10% 22% 6% 30%
IQL 15% 28% 10% 38%
Q-chunking (offline) 25% 40% 18% 52%

消融实验

分块大小 \(H\) 的影响 (Nut Assembly, 100K在线步后成功率):

H 离线性能 在线100K 在线500K
1 (无分块) 10% 18% 35%
5 18% 35% 55%
10 25% 45% 68%
20 22% 42% 65%
50 15% 30% 50%

关键发现

  1. Q-chunking 的在线样本效率相比最佳基线提升约 50%(53.5% vs 35.0%)
  2. 分块动作在离线阶段已提供更好的初始策略
  3. 最优分块大小约为 10,过长的分块降低适应性
  4. 时序一致的探索是改善的关键——分块消除了逐步策略的"抖动"探索行为

亮点与洞察

  • 简单而有效: 核心改动只是改变动作空间的定义,不引入新的损失或架构
  • 双重收益: 既从离线数据中获得更好的初始化,又在在线阶段获得更好的探索
  • 无偏多步: 分块动作天然提供无偏的 n-step 回报,避免了传统多步方法的偏差问题

局限与展望

  1. 分块大小 \(H\) 是关键超参数,不同任务需要不同设置
  2. 在高动态、需要快速反应的任务中,分块可能降低反应速度
  3. 高维分块动作空间增加了 Q 函数的学习难度
  4. 尚未在真实机器人上验证

相关工作与启发

  • ACT (Zhao et al.): 模仿学习中动作分块的开创工作
  • Cal-QL, RLPD: 离线到在线 RL 的先驱方法
  • Temporal Abstraction: 层次 RL 中的选项(options)和宏动作

评分

  • ⭐ 创新性: 8/10 — 将动作分块引入TD学习的思路自然且有效
  • ⭐ 实用性: 8/10 — 对机器人操作等实际任务直接相关
  • ⭐ 写作质量: 8/10 — 36页,实验详尽,分析深入

相关论文