Real-Time Execution of Action Chunking Flow Policies¶

会议: NeurIPS 2025
arXiv: 2506.07339
代码: 项目页面
领域: 扩散/流模型 / 机器人控制
关键词: 实时推理, 动作分块, 流匹配, 修复引导, VLA

一句话总结¶

提出 Real-Time Chunking (RTC)，将异步动作分块执行建模为修复（inpainting）问题，通过冻结已执行动作并"修复"其余部分，实现扩散/流策略的实时平滑执行，无需重新训练。

研究背景与动机¶

现代 VLA（视觉-语言-动作模型）在机器人控制中日益强大，但面临一个根本矛盾：模型越大越好，但延迟也越高。一个 3B 参数的 \(\pi_0\) VLA 仅 KV cache 预填充就需 46ms，而控制频率要求 20ms 一帧。远程推理还额外增加网络延迟。

动作分块（Action Chunking）——模型一次输出多步动作——部分缓解了延迟问题，但引入了新的核心难题：

块边界不连续: 相邻动作块可能跳到分布的不同模式，导致突变的、超出训练分布的运动

同步推理的暂停: 默认方法在执行完当前块后停下等待新块生成，引入可见的暂停，改变机器人动力学

朴素异步策略失败: 简单切换到新块会导致极高加速度；时间集成（Temporal Ensembling）通过平均多个预测，但在多模态分布中平均值可能不是有效动作

作者通过图示清晰展示了问题：假设当前块计划从上方绕过障碍物，新块计划从下方，延迟 7 步后跳转会产生超出分布的剧烈加速度。

方法详解¶

整体框架¶

RTC 将实时执行建模为修复问题：在生成新动作块时，"冻结"因推理延迟必定已执行的动作前缀，然后"修复"其余部分使其与前缀一致。算法在后台线程持续运行推理循环，主线程每 \(\Delta t\) 消费一个动作。

关键设计¶

基于 \(\Pi\)GDM 的流匹配修复: 在每个去噪步骤中添加基于梯度的引导项，鼓励生成结果匹配已知的目标值（冻结的动作）。修正后的速度场为： \(\mathbf{v}_{\Pi\text{GDM}}(\mathbf{A}_t^\tau, \mathbf{o}_t, \tau) = \mathbf{v}(\mathbf{A}_t^\tau, \mathbf{o}_t, \tau) + \min\left(\beta, \frac{1-\tau}{\tau \cdot r_\tau^2}\right)(\mathbf{Y} - \widehat{\mathbf{A}_t^1})^\top \text{diag}(\mathbf{W}) \frac{\partial \widehat{\mathbf{A}_t^1}}{\partial \mathbf{A}_t^\tau}\) 其中 \(\widehat{\mathbf{A}_t^1} = \mathbf{A}_t^\tau + (1-\tau)\mathbf{v}(\mathbf{A}_t^\tau, \mathbf{o}_t, \tau)\) 是最终去噪结果的估计。引导权重裁剪 \(\beta\) 是作者的改进，防止少步去噪时的不稳定性。
软掩码（Soft Masking）: 这是保证跨块连续性的关键创新。仅使用前 \(d\) 个动作做硬掩码修复信号太弱，容易策略切换。软掩码利用所有 \(H-s\) 个重叠动作，权重从 1 指数衰减到 0： \(\mathbf{W}_i = \begin{cases} 1 & \text{if } i < d \\ c_i \frac{e^{c_i}-1}{e-1} & \text{if } d \leq i < H-s \\ 0 & \text{if } i \geq H-s \end{cases}\) 其中 \(c_i = \frac{H-s-i}{H-s-d+1}\)。直觉上，越远的未来动作应赋予越少的注意力权重。
异步执行系统: 使用互斥锁和条件变量实现线程安全：
- GetAction: 控制器每 \(\Delta t\) 调用，返回当前块中的下一个动作
- InferenceLoop: 后台线程持续推理，用过去延迟的滑动窗口保守估计下一次延迟
- 新块一就绪就原子切换，执行周期 \(s = \max(d, s_{\min})\)

损失函数 / 训练策略¶

RTC 是纯推理时算法，不需要任何训练或重新训练。它适用于任何使用扩散或流匹配的动作分块策略。引导项通过反向传播计算向量-雅可比积，是唯一的额外计算开销。

实验关键数据¶

仿真实验：Kinetix 12 个动态任务¶

方法	d=0 求解率	d=2 求解率	d=4 求解率	对延迟的鲁棒性
Naive Async	~48%	~42%	~33%	差
TE (时间集成)	~35%	~33%	~30%	最差
BID (双向解码)	~51%	~46%	~38%	中等
RTC (硬掩码)	~52%	~48%	~42%	较好
RTC (软掩码)	~54%	~50%	~43%	最佳

真实世界实验：6 个双臂操作任务 (\(\pi_{0.5}\) VLA)¶

方法	平均吞吐量（无延迟）↑	平均吞吐量（+100ms）↑	平均吞吐量（+200ms）↑
同步推理	~0.35	~0.28	~0.22
TE (稀疏)	~0.36	不可用（触发保护停止）	不可用
TE (密集)	~0.33	不可用（触发保护停止）	不可用
RTC	~0.40	~0.40	~0.40

关键发现¶

RTC 对延迟完全鲁棒: 注入 +200ms 延迟后性能无退化，而同步推理线性退化，TE 方法因抖动过大触发机器人保护停止
速度与质量双提升: RTC 不仅执行更快（移除推理暂停后仍比同步快 20%），还因减少失误和重试而更早完成任务
点火柴任务: 最需要精确度的任务中，RTC 成功率大幅领先，因为该任务无重试机会
软掩码在低延迟时比硬掩码更有效，高延迟时差异缩小

亮点与洞察¶

问题建模的优雅转化: 将实时控制中的异步块拼接问题转化为已有成熟方法的修复问题，理论根基扎实
纯推理时方案: 无需改变训练流程，适用于所有扩散/流策略，包括已部署的大模型如 \(\pi_{0.5}\)
软掩码的类比: 指数衰减权重模拟了对未来不确定性的递增折扣，与控制理论中的预测时域折扣类似
真实世界验证的彻底性: 480 个 episode、28 小时纯执行时间、6 种任务包括移动操作，且注入了不同延迟

局限与展望¶

RTC 引导项需要反向传播计算 VJP，增加了约 28% 的推理延迟（97ms vs 76ms）
仅适用于扩散和流匹配策略，不适用于自回归或 VQ 策略
真实世界实验未涵盖腿式运动等更动态的场景（仅在仿真中测试）
软掩码的衰减函数选择（指数 vs 线性 vs 余弦）的消融仅在附录中提及

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将修复引导引入实时机器人控制，问题建模精准
实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实世界、多种延迟条件、480 episodes
写作质量: ⭐⭐⭐⭐⭐ 问题阐述极清晰，图示直观，算法伪代码完备
价值: ⭐⭐⭐⭐⭐ 直接解决大模型机器人部署的核心瓶颈，即插即用