Real-Time Robot Execution with Masked Action Chunking¶
会议: ICLR 2026
arXiv: 2601.20130
代码: 项目页面
领域: 机器人学习
关键词: 实时执行, 动作分块, 异步推理, VLA, 流匹配, LoRA
一句话总结¶
提出REMAC,通过掩码动作分块训练策略和前缀保持采样管线,系统性解决异步推理下的段内不一致(intra-chunk inconsistency)和段间不连续(inter-chunk discontinuity)两大问题,在不引入额外推理延迟的前提下实现更可靠的实时机器人控制。
研究背景与动机¶
领域现状:Vision-Language-Action (VLA) 模型通过动作分块(action chunking)预测一段动作序列用于机器人操作,已成为通用机器人策略的主流范式。实时性对机器人系统至关重要——延迟可能导致任务失败(如洒出液体),而非仅仅增加等待时间。
异步推理的必要性:同步推理要求推理延迟 \(\delta < \Delta t\)(控制周期),以50Hz控制频率为例需<20ms,但 \(\pi_0\) 模型在RTX 4090上仅动作生成就需76ms,加上预处理和网络传输远超阈值。异步推理通过在执行当前块的同时预测下一块,确保动作始终可用,是唯一可行的实时方案。
现有痛点——段间不连续:连续的两个动作块 \(\mathbf{A}_t^1\) 和 \(\mathbf{A}_{t+h}^2\) 可能来自不同的专家模式(latent expert modes),在块边界处产生跳跃性动作,导致机器人运动不连贯。已有方法如时序集成TE、BID、RTC尝试解决,但要么不可靠(TE在多任务上甚至不如Naive Async),要么引入额外延迟(RTC需55-64ms梯度修正)。
被忽视的痛点——段内不一致:这是本文的核心洞察。在推理延迟 \(d\) 下,当前执行块的前 \(d\) 个动作实际来自上一块 \(\mathbf{A}_{t-h}\)(基于旧观测 \(\mathbf{o}_{t-h}\)),而非当前观测 \(\mathbf{o}_t\) 的最优动作。这导致感知-动作不匹配,产生训练时和推理时的分布偏移。此前所有工作均未识别和解决此问题。
切入角度:将段内不一致建模为动作块中任意位置的部分掩码问题——训练时随机掩码前缀部分,让模型学习在观测与部分动作不对齐时做出修正;同时调整采样管线保持前缀连续性,一并处理段间不连续。
技术路线选择:采用训练时适应而非测试时修正——通过LoRA微调预训练策略(仅增加1.5%参数),将修正能力内化到模型中,推理时无需任何额外计算步骤,可与现有测试时方法正交叠加。
方法详解¶
整体框架¶
REMAC构建于流匹配(flow matching)策略之上。给定预训练策略 \(\mathbf{v}_\pi(\mathbf{A}_t|\mathbf{o}_t)\),目标是学习延迟感知策略 \(\hat{\mathbf{v}}_\pi(\mathbf{A}_t|\mathbf{o}_t, d)\),显式条件化推理延迟 \(d\)。框架包含三个训练组件(前缀掩码、自条件课程、残差对齐)和一个采样组件(前缀保持采样),通过LoRA高效适配。
关键设计1:前缀掩码(Prefix Masking)¶
- 功能:对动作块施加延迟条件掩码,仅在可执行的后半部分施加监督,忽略已被前一块占据的前缀部分。
- 核心思路:定义掩码 \(\mathbf{m}_d = \{m_d^\tau\}_{\tau=0}^{P-1} = \mathbf{1}[\tau \geq d]\),其中 \(d \sim \mathcal{U}\{0, \dots, P-1\}\) 随机采样。掩码损失为:
- 设计动机:通过在训练中随机采样所有有效延迟(从 \(d=0\) 到 \(d=h\)),模型暴露在从无掩码到极端掩码的全谱条件下,增强对不确定执行动作的适应性。单一模型即可处理所有延迟设置,无需为不同延迟分别训练。
关键设计2:自条件课程调度(Self-conditioned Curriculum)¶
- 功能:在训练输入中逐步混入预训练策略的自身预测,模拟测试时条件,减少曝光偏差(exposure bias)。
- 核心思路:用预训练策略预测的 \(\tilde{\mathbf{A}}_t\) 与真实动作 \(\mathbf{A}_t\) 做随机混合:
其中 \(\sigma\) 从1(纯真实标签)线性退火到0(纯自条件输入),\(\text{sg}(\cdot)\) 表示梯度截断。
- 设计动机:纯真实标签训练会导致曝光偏差(推理时用的是自身预测而非真实标签);纯自条件输入早期不稳定。课程调度两者兼顾——早期用真实标签稳定训练,后期让模型学习修正自身预测的偏差,对齐训练和测试条件。
关键设计3:残差对齐(Residual Alignment)¶
- 功能:在标准监督之外,额外引入 \(\Delta\)-matching 项,显式对齐模型学到的修正量与预训练策略到真实目标之间的残差。
- 核心思路:令 \(\tilde{\mathbf{u}}\) 为预训练策略的流估计(LoRA关闭),\(\hat{\mathbf{u}}\) 为目标策略估计(LoRA开启),残差对齐损失为:
总损失为 \(\mathcal{L} = \lambda_m \mathcal{L}_m + \lambda_\Delta \mathcal{L}_\Delta\),其中 \(\lambda_m = \lambda_\Delta = 0.01\)。
- 设计动机:虽然数学上与 \(\mathcal{L}_m\) 相关,但两者强调不同方面—— \(\mathcal{L}_m\) 直接对齐真实标签,\(\mathcal{L}_\Delta\) 显式建模相对于预训练策略的修正量。实验证明加入 \(\mathcal{L}_\Delta\) 带来显著性能提升。
关键设计4:前缀保持采样(Prefix-preserved Sampling)¶
- 功能:调整推理时的采样管线,用已执行动作初始化新块前缀,在每步积分中保持前缀不变。
- 核心思路:初始动作状态 \(\mathbf{A}_t^0\) 不再从高斯先验采样,而是前 \(P-h\) 维填入上一块的末尾动作,其余零初始化。积分过程中前缀保持不变:
- 设计动机:保持已执行动作作为先验,新生成的部分自然衔接前缀,直接增强段间连续性,与训练时的掩码策略对齐。
实验关键数据¶
Kinetix仿真实验(12个高动态任务,平均成功率)¶
| 方法 | \(d=0\) | \(d=1\) | \(d=2\) | \(d=3\) | \(d=4\) |
|---|---|---|---|---|---|
| Naive Async | 0.828 | 0.702 | 0.639 | 0.525 | 0.451 |
| BID | — | — | — | — | — |
| RTC | — | — | — | — | — |
| REMAC (Ours) | 0.888 | 0.879 | 0.859 | 0.817 | 0.779 |
消融实验(各组件贡献)¶
| 配置 | \(d=0\) | \(d=1\) | \(d=2\) | \(d=3\) | \(d=4\) |
|---|---|---|---|---|---|
| Naive | 0.828 | 0.702 | 0.639 | 0.525 | 0.451 |
| + LoRA(仅加参数) | 0.825 | 0.710 | 0.630 | 0.510 | 0.428 |
| + Prefix Masking | 0.863 | 0.825 | 0.752 | 0.729 | 0.636 |
| + Self-conditioned Curriculum | 0.848 | 0.837 | 0.805 | 0.762 | 0.710 |
| + \(\mathcal{L}_\Delta\)(完整REMAC) | 0.888 | 0.879 | 0.859 | 0.817 | 0.779 |
与测试时方法叠加¶
| 方法 | \(d=0\) | \(d=1\) | \(d=2\) | \(d=3\) | \(d=4\) |
|---|---|---|---|---|---|
| REMAC | 0.888 | 0.879 | 0.859 | 0.817 | 0.779 |
| REMAC + BID | 0.888 | 0.880 | 0.862 | 0.821 | 0.781 |
| REMAC + RTC | 0.888 | 0.879 | 0.864 | 0.826 | 0.791 |
真实机器人实验(Franka Research 3,平均完成进度)¶
| 方法 | Grasp-Easy | Grasp-Medium | Grasp-Hard |
|---|---|---|---|
| Synchronous | 0.805 | 0.718 | 0.670 |
| Naive Async | 0.825 | 0.825 | 0.460 |
| Temporal Ensembling | 0.825 | 0.868 | 0.717 |
| RTC | 0.823 | 0.848 | 0.753 |
| REMAC (Ours) | 0.903 | 0.943 | 0.812 |
关键发现¶
-
段内不一致是关键失败模式:之前所有工作仅关注段间不连续,REMAC首次识别并解决段内不一致问题。消融实验表明仅加入前缀掩码即可在 \(d=4\) 时将成功率从0.451提升至0.636(+41%)。
-
训练时适应优于测试时修正:REMAC无额外推理延迟,而RTC引入55-64ms额外延迟。在真实实验中RTC在大延迟下反而性能下降,因为其测试时调整在更长执行horizon下可能产生负面效果。
-
各组件渐进互补:从Naive→Prefix Masking→Self-conditioned Curriculum→Residual Alignment,每增加一个组件都带来稳定提升,完整方法在 \(d=4\) 时成功率达0.779,比Naive高72.7%。
-
鲁棒性随延迟增加更明显:REMAC在 \(d=0\) 到 \(d=4\) 的性能下降(0.888→0.779,-12.3%),远小于Naive Async(0.828→0.451,-45.5%),展现出对延迟变化的强鲁棒性。
-
单一模型处理全延迟谱:通过随机采样训练延迟,无需为不同延迟训练单独模型,一个REMAC模型适用所有延迟设置。
亮点与洞察¶
-
问题识别的价值:段内不一致的识别本身就是重要贡献。将其形式化为"部分感知-动作不匹配"并建模为掩码问题,是非常优雅的抽象。
-
训练时解决>推理时补丁:将修正能力内化到模型权重中(通过LoRA),而非在推理时做额外计算,是更根本的解决方案。LoRA的选择也很合理——视为分布调整而非重新学习。
-
可组合性:REMAC作为backbone改进可与BID/RTC等测试时方法正交叠加,具有良好的生态兼容性。
-
实践价值:真实部署框架(gRPC通信、延迟估计、动作队列)的设计和验证,为VLA实时部署提供了完整参考。
局限性¶
-
仅验证于flow matching策略:虽然附录提到了ACT上的实验,但主体实验限于flow matching策略框架,对其他动作生成范式(如扩散策略、自回归策略)的适用性需要更多验证。
-
延迟估计的简化:将连续延迟离散化为 \(d = \lfloor \delta / \Delta t \rfloor\) 并忽略观测延迟和亚时间步延迟,在延迟波动较大的真实场景中可能不够准确。
-
真实实验规模有限:仅3个抓取放置任务、单臂设置、200条轨迹微调。更复杂的双臂操作、长horizon任务、多样化物体的验证尚缺。
-
训练需要预训练策略推理:自条件课程需要在每个训练样本上运行预训练模型生成 \(\tilde{\mathbf{A}}_t\),增加了训练计算成本。
相关工作与启发¶
vs RTC (Black et al., 2025)¶
RTC同样针对异步推理下的实时执行,采用测试时inpainting策略——用已执行动作warm-start下一块并做梯度修正。核心差异:RTC引入55-64ms额外推理延迟(影响实时性),且仅处理段间不连续而忽略段内不一致。REMAC在训练时解决两个问题且零额外推理开销。在真实实验中,RTC在大延迟下性能反而下降,说明测试时修正在某些条件下可能适得其反。
vs BID (Liu et al., 2025)¶
BID通过采样多个候选预测并做拒绝采样来平衡长期一致性与短期反应性。核心差异:BID计算量大(需多次前向传播和评估),不适合实时场景;且同样未解决段内不一致问题。REMAC通过训练时适应一次性解决,推理时单次前向传播即可。
vs Temporal Ensembling (Zhao et al., 2023)¶
TE通过加权平均连续块的重叠部分来平滑边界。核心差异:TE是启发式方法,在高动态环境中表现甚至差于Naive Async。REMAC提供了原理性的解决方案,在所有测试条件下稳定优于基线。
评分¶
- 新颖性: ⭐⭐⭐⭐ 段内不一致问题的识别是重要洞察,掩码训练+残差对齐+课程调度的组合设计合理且新颖。扣分点:各单独组件(掩码训练、LoRA、课程学习)并非全新。
- 实验充分度: ⭐⭐⭐⭐⭐ 12个仿真任务+3个真实任务,覆盖5种延迟设置,详尽的消融实验,与3种基线对比,还展示了与测试时方法的可组合性。
- 写作质量: ⭐⭐⭐⭐ 问题分析层次清晰(段间vs段内),方法推导完整,实验展示全面。段内不一致的可视化说明直观有效。
- 实用价值: ⭐⭐⭐⭐⭐ 零额外推理延迟、仅1.5%参数开销、可与现有方法叠加、提供完整部署框架——对VLA实时部署有直接且高度实用的价值。
相关论文¶
- [CVPR 2026] Adaptive Action Chunking at Inference-time for Vision-Language-Action Models
- [CVPR 2026] RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation
- [ICLR 2026] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
- [ICLR 2026] TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models
- [ICLR 2026] Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences