Reinforcement Learning with Action Chunking¶

会议: NeurIPS 2025

arXiv: 2507.07969

代码: 无

领域: 强化学习

关键词: 动作分块, Q-learning, 离线到在线RL, 稀疏奖励, 操作任务

一句话总结¶

提出 Q-chunking,将动作分块技术从模仿学习推广到基于 TD 的强化学习方法中,通过在"分块"动作空间上直接运行 RL 来改善长horizon稀疏奖励任务的探索和学习效率。

研究背景与动机¶

在离线到在线 RL 设置中,如何利用离线先验数据最大化在线学习的样本效率是核心挑战。动作分块（action chunking）是模仿学习中常用的技术——预测未来一段动作序列而非单步动作。

关键动机：

探索困难: 长 horizon 稀疏奖励任务中,随机探索几乎不可能到达目标

离线数据利用不足: 现有方法在利用离线数据获得良好探索策略方面不够有效

动作分块的 RL 潜力未被开发: 在模仿学习中,ACT等方法已证明动作分块的价值,但 TD 学习中尚未系统研究

时序一致性: 逐步预测动作导致行为的时序不连续,不利于机器人操作等任务

方法详解¶

整体框架¶

Q-chunking 通过将动作空间从单步动作 \(a_t\) 扩展为动作序列 \(\mathbf{a}_t = (a_t, a_{t+1}, \ldots, a_{t+H-1})\),在这个"分块"空间上直接运行 Q-learning。

关键设计¶

1. 分块动作空间

将 \(H\) 步动作打包为一个"宏动作": \(\mathbf{a} = (a_0, a_1, \ldots, a_{H-1})\)
Q 函数定义在分块动作上: \(Q(s, \mathbf{a})\)
策略输出分块动作: \(\pi(\mathbf{a} | s)\)

2. 无偏 n-step 回报

分块动作天然对应 \(H\)-step TD 目标
\(Q(s_t, \mathbf{a}_t) \leftarrow \sum_{k=0}^{H-1} \gamma^k r_{t+k} + \gamma^H \max_{\mathbf{a}'} Q(s_{t+H}, \mathbf{a}')\)
与标准多步回报不同，这里的 \(H\)-step 是无偏的（因为动作序列完整执行）
避免了重要性采样或截断带来的偏差

3. 离线到在线转换

离线阶段: 在离线数据中的动作分块上训练 Q 函数和策略
在线阶段: 利用从离线数据习得的时序一致行为模式进行探索
关键洞察: 离线数据中的分块动作提供了较的时序一致探索策略

损失函数 / 训练策略¶

离线阶段: CQL 风格的保守 Q-learning + 分块动作空间
在线阶段: SAC/TD3 风格的在线微调
分块大小 \(H\): 作为超参数,通常取 5-20

实验关键数据¶

主实验¶

长 horizon 操作任务 (归一化成功率, 100K 在线步):

方法	Nut Assembly	Pick-Place	Stack	Can	平均
CQL → SAC	12%	25%	8%	35%	20.0%
IQL → SAC	18%	32%	12%	42%	26.0%
Cal-QL	22%	38%	15%	48%	30.8%
RLPD	28%	42%	18%	52%	35.0%
Q-chunking (Ours)	45%	62%	35%	72%	53.5%

纯离线性能比较:

方法	Nut Assembly	Pick-Place	Stack	Can
CQL	10%	22%	6%	30%
IQL	15%	28%	10%	38%
Q-chunking (offline)	25%	40%	18%	52%

消融实验¶

分块大小 \(H\) 的影响 (Nut Assembly, 100K在线步后成功率):

H	离线性能	在线100K	在线500K
1 (无分块)	10%	18%	35%
5	18%	35%	55%
10	25%	45%	68%
20	22%	42%	65%
50	15%	30%	50%

关键发现¶

Q-chunking 的在线样本效率相比最佳基线提升约 50%（53.5% vs 35.0%）
分块动作在离线阶段已提供更好的初始策略
最优分块大小约为 10,过长的分块降低适应性
时序一致的探索是改善的关键——分块消除了逐步策略的"抖动"探索行为

亮点与洞察¶

简单而有效: 核心改动只是改变动作空间的定义,不引入新的损失或架构
双重收益: 既从离线数据中获得更好的初始化,又在在线阶段获得更好的探索
无偏多步: 分块动作天然提供无偏的 n-step 回报,避免了传统多步方法的偏差问题

局限与展望¶

分块大小 \(H\) 是关键超参数,不同任务需要不同设置
在高动态、需要快速反应的任务中,分块可能降低反应速度
高维分块动作空间增加了 Q 函数的学习难度
尚未在真实机器人上验证

评分¶

⭐ 创新性: 8/10 — 将动作分块引入TD学习的思路自然且有效
⭐ 实用性: 8/10 — 对机器人操作等实际任务直接相关
⭐ 写作质量: 8/10 — 36页,实验详尽,分析深入