Real-Time Robot Execution with Masked Action Chunking¶

会议: ICLR 2026
arXiv: 2601.20130
代码: 项目页面
领域: 机器人学习
关键词: 实时执行, 动作分块, 异步推理, VLA, 流匹配, LoRA

一句话总结¶

提出REMAC，通过掩码动作分块训练策略和前缀保持采样管线，系统性解决异步推理下的段内不一致（intra-chunk inconsistency）和段间不连续（inter-chunk discontinuity）两大问题，在不引入额外推理延迟的前提下实现更可靠的实时机器人控制。

研究背景与动机¶

领域现状：Vision-Language-Action (VLA) 模型通过动作分块（action chunking）预测一段动作序列用于机器人操作，已成为通用机器人策略的主流范式。实时性对机器人系统至关重要——延迟可能导致任务失败（如洒出液体），而非仅仅增加等待时间。

异步推理的必要性：同步推理要求推理延迟 \(\delta < \Delta t\)（控制周期），以50Hz控制频率为例需<20ms，但 \(\pi_0\) 模型在RTX 4090上仅动作生成就需76ms，加上预处理和网络传输远超阈值。异步推理通过在执行当前块的同时预测下一块，确保动作始终可用，是唯一可行的实时方案。

现有痛点——段间不连续：连续的两个动作块 \(\mathbf{A}_t^1\) 和 \(\mathbf{A}_{t+h}^2\) 可能来自不同的专家模式（latent expert modes），在块边界处产生跳跃性动作，导致机器人运动不连贯。已有方法如时序集成TE、BID、RTC尝试解决，但要么不可靠（TE在多任务上甚至不如Naive Async），要么引入额外延迟（RTC需55-64ms梯度修正）。

被忽视的痛点——段内不一致：这是本文的核心洞察。在推理延迟 \(d\) 下，当前执行块的前 \(d\) 个动作实际来自上一块 \(\mathbf{A}_{t-h}\)（基于旧观测 \(\mathbf{o}_{t-h}\)），而非当前观测 \(\mathbf{o}_t\) 的最优动作。这导致感知-动作不匹配，产生训练时和推理时的分布偏移。此前所有工作均未识别和解决此问题。

切入角度：将段内不一致建模为动作块中任意位置的部分掩码问题——训练时随机掩码前缀部分，让模型学习在观测与部分动作不对齐时做出修正；同时调整采样管线保持前缀连续性，一并处理段间不连续。

技术路线选择：采用训练时适应而非测试时修正——通过LoRA微调预训练策略（仅增加1.5%参数），将修正能力内化到模型中，推理时无需任何额外计算步骤，可与现有测试时方法正交叠加。

方法详解¶

整体框架¶

REMAC构建于流匹配（flow matching）策略之上。给定预训练策略 \(\mathbf{v}_\pi(\mathbf{A}_t|\mathbf{o}_t)\)，目标是学习延迟感知策略 \(\hat{\mathbf{v}}_\pi(\mathbf{A}_t|\mathbf{o}_t, d)\)，显式条件化推理延迟 \(d\)。框架包含三个训练组件（前缀掩码、自条件课程、残差对齐）和一个采样组件（前缀保持采样），通过LoRA高效适配。

关键设计1：前缀掩码（Prefix Masking）¶

功能：对动作块施加延迟条件掩码，仅在可执行的后半部分施加监督，忽略已被前一块占据的前缀部分。
核心思路：定义掩码 \(\mathbf{m}_d = \{m_d^\tau\}_{\tau=0}^{P-1} = \mathbf{1}[\tau \geq d]\)，其中 \(d \sim \mathcal{U}\{0, \dots, P-1\}\) 随机采样。掩码损失为：

\[\mathcal{L}_\mathrm{m} = \sum_d \frac{\sum_{\tau=0}^{P-1} m_d^\tau \|\hat{\mathbf{u}}_\tau - \mathbf{u}_\tau\|_2^2}{\max(1, \sum_{\tau=0}^{P-1} m_d^\tau)}\]

设计动机：通过在训练中随机采样所有有效延迟（从 \(d=0\) 到 \(d=h\)），模型暴露在从无掩码到极端掩码的全谱条件下，增强对不确定执行动作的适应性。单一模型即可处理所有延迟设置，无需为不同延迟分别训练。

关键设计2：自条件课程调度（Self-conditioned Curriculum）¶

功能：在训练输入中逐步混入预训练策略的自身预测，模拟测试时条件，减少曝光偏差（exposure bias）。
核心思路：用预训练策略预测的 \(\tilde{\mathbf{A}}_t\) 与真实动作 \(\mathbf{A}_t\) 做随机混合：

\[\hat{\mathbf{A}}_t = \gamma \mathbf{A}_t + \text{sg}((1-\gamma)\tilde{\mathbf{A}}_t), \quad \gamma \sim \mathrm{Bernoulli}(\sigma), \sigma \in [0,1]\]

其中 \(\sigma\) 从1（纯真实标签）线性退火到0（纯自条件输入），\(\text{sg}(\cdot)\) 表示梯度截断。

设计动机：纯真实标签训练会导致曝光偏差（推理时用的是自身预测而非真实标签）；纯自条件输入早期不稳定。课程调度两者兼顾——早期用真实标签稳定训练，后期让模型学习修正自身预测的偏差，对齐训练和测试条件。

关键设计3：残差对齐（Residual Alignment）¶

功能：在标准监督之外，额外引入 \(\Delta\)-matching 项，显式对齐模型学到的修正量与预训练策略到真实目标之间的残差。
核心思路：令 \(\tilde{\mathbf{u}}\) 为预训练策略的流估计（LoRA关闭），\(\hat{\mathbf{u}}\) 为目标策略估计（LoRA开启），残差对齐损失为：

\[\mathcal{L}_\Delta = \sum_d \frac{\sum_{\tau=0}^{P-1} \|m_d^\tau(\mathbf{u}_\tau - \tilde{\mathbf{u}}_\tau) - m_d^\tau(\hat{\mathbf{u}}_\tau - \tilde{\mathbf{u}}_\tau)\|_2^2}{\max(1, \sum_{\tau=0}^{P-1} m_d^\tau)}\]

总损失为 \(\mathcal{L} = \lambda_m \mathcal{L}_m + \lambda_\Delta \mathcal{L}_\Delta\)，其中 \(\lambda_m = \lambda_\Delta = 0.01\)。

设计动机：虽然数学上与 \(\mathcal{L}_m\) 相关，但两者强调不同方面—— \(\mathcal{L}_m\) 直接对齐真实标签，\(\mathcal{L}_\Delta\) 显式建模相对于预训练策略的修正量。实验证明加入 \(\mathcal{L}_\Delta\) 带来显著性能提升。

关键设计4：前缀保持采样（Prefix-preserved Sampling）¶

功能：调整推理时的采样管线，用已执行动作初始化新块前缀，在每步积分中保持前缀不变。
核心思路：初始动作状态 \(\mathbf{A}_t^0\) 不再从高斯先验采样，而是前 \(P-h\) 维填入上一块的末尾动作，其余零初始化。积分过程中前缀保持不变：

\[\mathbf{A}_t^{\tau+\frac{1}{n}} = \mathbf{m} \odot \left(\mathbf{A}_t^\tau + \frac{1}{n}\hat{\mathbf{v}}_\pi(\mathbf{A}_t^\tau, \mathbf{o}_t, \tau)\right) + (1-\mathbf{m}) \odot \mathbf{A}_t^\mathrm{p}\]

设计动机：保持已执行动作作为先验，新生成的部分自然衔接前缀，直接增强段间连续性，与训练时的掩码策略对齐。

实验关键数据¶

Kinetix仿真实验（12个高动态任务，平均成功率）¶

方法	\(d=0\)	\(d=1\)	\(d=2\)	\(d=3\)	\(d=4\)
Naive Async	0.828	0.702	0.639	0.525	0.451
BID	—	—	—	—	—
RTC	—	—	—	—	—
REMAC (Ours)	0.888	0.879	0.859	0.817	0.779

消融实验（各组件贡献）¶

配置	\(d=0\)	\(d=1\)	\(d=2\)	\(d=3\)	\(d=4\)
Naive	0.828	0.702	0.639	0.525	0.451
+ LoRA（仅加参数）	0.825	0.710	0.630	0.510	0.428
+ Prefix Masking	0.863	0.825	0.752	0.729	0.636
+ Self-conditioned Curriculum	0.848	0.837	0.805	0.762	0.710
+ \(\mathcal{L}_\Delta\)（完整REMAC）	0.888	0.879	0.859	0.817	0.779

与测试时方法叠加¶

方法	\(d=0\)	\(d=1\)	\(d=2\)	\(d=3\)	\(d=4\)
REMAC	0.888	0.879	0.859	0.817	0.779
REMAC + BID	0.888	0.880	0.862	0.821	0.781
REMAC + RTC	0.888	0.879	0.864	0.826	0.791

真实机器人实验（Franka Research 3，平均完成进度）¶

方法	Grasp-Easy	Grasp-Medium	Grasp-Hard
Synchronous	0.805	0.718	0.670
Naive Async	0.825	0.825	0.460
Temporal Ensembling	0.825	0.868	0.717
RTC	0.823	0.848	0.753
REMAC (Ours)	0.903	0.943	0.812

关键发现¶

段内不一致是关键失败模式：之前所有工作仅关注段间不连续，REMAC首次识别并解决段内不一致问题。消融实验表明仅加入前缀掩码即可在 \(d=4\) 时将成功率从0.451提升至0.636（+41%）。
训练时适应优于测试时修正：REMAC无额外推理延迟，而RTC引入55-64ms额外延迟。在真实实验中RTC在大延迟下反而性能下降，因为其测试时调整在更长执行horizon下可能产生负面效果。
各组件渐进互补：从Naive→Prefix Masking→Self-conditioned Curriculum→Residual Alignment，每增加一个组件都带来稳定提升，完整方法在 \(d=4\) 时成功率达0.779，比Naive高72.7%。
鲁棒性随延迟增加更明显：REMAC在 \(d=0\) 到 \(d=4\) 的性能下降（0.888→0.779，-12.3%），远小于Naive Async（0.828→0.451，-45.5%），展现出对延迟变化的强鲁棒性。
单一模型处理全延迟谱：通过随机采样训练延迟，无需为不同延迟训练单独模型，一个REMAC模型适用所有延迟设置。

亮点与洞察¶

问题识别的价值：段内不一致的识别本身就是重要贡献。将其形式化为"部分感知-动作不匹配"并建模为掩码问题，是非常优雅的抽象。
训练时解决>推理时补丁：将修正能力内化到模型权重中（通过LoRA），而非在推理时做额外计算，是更根本的解决方案。LoRA的选择也很合理——视为分布调整而非重新学习。
可组合性：REMAC作为backbone改进可与BID/RTC等测试时方法正交叠加，具有良好的生态兼容性。
实践价值：真实部署框架（gRPC通信、延迟估计、动作队列）的设计和验证，为VLA实时部署提供了完整参考。

局限性¶

仅验证于flow matching策略：虽然附录提到了ACT上的实验，但主体实验限于flow matching策略框架，对其他动作生成范式（如扩散策略、自回归策略）的适用性需要更多验证。
延迟估计的简化：将连续延迟离散化为 \(d = \lfloor \delta / \Delta t \rfloor\) 并忽略观测延迟和亚时间步延迟，在延迟波动较大的真实场景中可能不够准确。
真实实验规模有限：仅3个抓取放置任务、单臂设置、200条轨迹微调。更复杂的双臂操作、长horizon任务、多样化物体的验证尚缺。
训练需要预训练策略推理：自条件课程需要在每个训练样本上运行预训练模型生成 \(\tilde{\mathbf{A}}_t\)，增加了训练计算成本。

评分¶

新颖性: ⭐⭐⭐⭐ 段内不一致问题的识别是重要洞察，掩码训练+残差对齐+课程调度的组合设计合理且新颖。扣分点：各单独组件（掩码训练、LoRA、课程学习）并非全新。
实验充分度: ⭐⭐⭐⭐⭐ 12个仿真任务+3个真实任务，覆盖5种延迟设置，详尽的消融实验，与3种基线对比，还展示了与测试时方法的可组合性。
写作质量: ⭐⭐⭐⭐ 问题分析层次清晰（段间vs段内），方法推导完整，实验展示全面。段内不一致的可视化说明直观有效。
实用价值: ⭐⭐⭐⭐⭐ 零额外推理延迟、仅1.5%参数开销、可与现有方法叠加、提供完整部署框架——对VLA实时部署有直接且高度实用的价值。