Reinforcement Learning with Action Chunking¶
会议: NeurIPS 2025
arXiv: 2507.07969
代码: 无
领域: 强化学习
关键词: 动作分块, Q-learning, 离线到在线RL, 稀疏奖励, 操作任务
一句话总结¶
提出 Q-chunking,将动作分块技术从模仿学习推广到基于 TD 的强化学习方法中,通过在"分块"动作空间上直接运行 RL 来改善长horizon稀疏奖励任务的探索和学习效率。
研究背景与动机¶
在离线到在线 RL 设置中,如何利用离线先验数据最大化在线学习的样本效率是核心挑战。动作分块(action chunking)是模仿学习中常用的技术——预测未来一段动作序列而非单步动作。
关键动机:
探索困难: 长 horizon 稀疏奖励任务中,随机探索几乎不可能到达目标
离线数据利用不足: 现有方法在利用离线数据获得良好探索策略方面不够有效
动作分块的 RL 潜力未被开发: 在模仿学习中,ACT等方法已证明动作分块的价值,但 TD 学习中尚未系统研究
时序一致性: 逐步预测动作导致行为的时序不连续,不利于机器人操作等任务
方法详解¶
整体框架¶
Q-chunking 通过将动作空间从单步动作 \(a_t\) 扩展为动作序列 \(\mathbf{a}_t = (a_t, a_{t+1}, \ldots, a_{t+H-1})\),在这个"分块"空间上直接运行 Q-learning。
关键设计¶
1. 分块动作空间
- 将 \(H\) 步动作打包为一个"宏动作": \(\mathbf{a} = (a_0, a_1, \ldots, a_{H-1})\)
- Q 函数定义在分块动作上: \(Q(s, \mathbf{a})\)
- 策略输出分块动作: \(\pi(\mathbf{a} | s)\)
2. 无偏 n-step 回报
- 分块动作天然对应 \(H\)-step TD 目标
- \(Q(s_t, \mathbf{a}_t) \leftarrow \sum_{k=0}^{H-1} \gamma^k r_{t+k} + \gamma^H \max_{\mathbf{a}'} Q(s_{t+H}, \mathbf{a}')\)
- 与标准多步回报不同,这里的 \(H\)-step 是无偏的(因为动作序列完整执行)
- 避免了重要性采样或截断带来的偏差
3. 离线到在线转换
- 离线阶段: 在离线数据中的动作分块上训练 Q 函数和策略
- 在线阶段: 利用从离线数据习得的时序一致行为模式进行探索
- 关键洞察: 离线数据中的分块动作提供了较的时序一致探索策略
损失函数 / 训练策略¶
- 离线阶段: CQL 风格的保守 Q-learning + 分块动作空间
- 在线阶段: SAC/TD3 风格的在线微调
- 分块大小 \(H\): 作为超参数,通常取 5-20
实验关键数据¶
主实验¶
长 horizon 操作任务 (归一化成功率, 100K 在线步):
| 方法 | Nut Assembly | Pick-Place | Stack | Can | 平均 |
|---|---|---|---|---|---|
| CQL → SAC | 12% | 25% | 8% | 35% | 20.0% |
| IQL → SAC | 18% | 32% | 12% | 42% | 26.0% |
| Cal-QL | 22% | 38% | 15% | 48% | 30.8% |
| RLPD | 28% | 42% | 18% | 52% | 35.0% |
| Q-chunking (Ours) | 45% | 62% | 35% | 72% | 53.5% |
纯离线性能比较:
| 方法 | Nut Assembly | Pick-Place | Stack | Can |
|---|---|---|---|---|
| CQL | 10% | 22% | 6% | 30% |
| IQL | 15% | 28% | 10% | 38% |
| Q-chunking (offline) | 25% | 40% | 18% | 52% |
消融实验¶
分块大小 \(H\) 的影响 (Nut Assembly, 100K在线步后成功率):
| H | 离线性能 | 在线100K | 在线500K |
|---|---|---|---|
| 1 (无分块) | 10% | 18% | 35% |
| 5 | 18% | 35% | 55% |
| 10 | 25% | 45% | 68% |
| 20 | 22% | 42% | 65% |
| 50 | 15% | 30% | 50% |
关键发现¶
- Q-chunking 的在线样本效率相比最佳基线提升约 50%(53.5% vs 35.0%)
- 分块动作在离线阶段已提供更好的初始策略
- 最优分块大小约为 10,过长的分块降低适应性
- 时序一致的探索是改善的关键——分块消除了逐步策略的"抖动"探索行为
亮点与洞察¶
- 简单而有效: 核心改动只是改变动作空间的定义,不引入新的损失或架构
- 双重收益: 既从离线数据中获得更好的初始化,又在在线阶段获得更好的探索
- 无偏多步: 分块动作天然提供无偏的 n-step 回报,避免了传统多步方法的偏差问题
局限与展望¶
- 分块大小 \(H\) 是关键超参数,不同任务需要不同设置
- 在高动态、需要快速反应的任务中,分块可能降低反应速度
- 高维分块动作空间增加了 Q 函数的学习难度
- 尚未在真实机器人上验证
相关工作与启发¶
- ACT (Zhao et al.): 模仿学习中动作分块的开创工作
- Cal-QL, RLPD: 离线到在线 RL 的先驱方法
- Temporal Abstraction: 层次 RL 中的选项(options)和宏动作
评分¶
- ⭐ 创新性: 8/10 — 将动作分块引入TD学习的思路自然且有效
- ⭐ 实用性: 8/10 — 对机器人操作等实际任务直接相关
- ⭐ 写作质量: 8/10 — 36页,实验详尽,分析深入
相关论文¶
- [NeurIPS 2025] BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning
- [ICML 2025] Action-Constrained Imitation Learning
- [NeurIPS 2025] Learning Human-Like RL Agents through Trajectory Optimization with Action Quantization
- [NeurIPS 2025] Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies
- [NeurIPS 2025] Risk-Averse Total-Reward Reinforcement Learning