跳转至

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

会议: CVPR 2026
arXiv: 2604.04161
代码: https://lance-lot.github.io/adaptive-chunking.github.io/ (有)
领域: 机器人 / VLA模型
关键词: 动作分块, VLA模型, 自适应推理, 动作熵, 机器人操作

一句话总结

提出自适应动作分块(AAC)策略,利用动作熵作为线索在推理时动态确定最优分块大小,无需额外训练或架构修改,在RoboCasa和LIBERO等基准上持续提升GR00T N1.5和π0.5的任务成功率。

研究背景与动机

领域现状:VLA模型中,动作分块(一次性执行一组动作而不中间重新规划)是提高机器人操作能力的关键技术。当前主流VLA模型(GR00T N1.5、π0、SmolVLA)都使用固定的分块大小。

现有痛点:(1) 大分块→响应性差,无法及时适应新信息;(2) 小分块→mode-jumping,分块间不连续导致抖动;(3) 不同任务的最优分块大小不同(实验证明:同一模型在不同RoboCasa任务上,最优分块从4到16不等)。现有方法如ACT用EMA平滑、BID搜索最优分块,但都使用固定大小。

核心矛盾:需要在一致性(大分块)和反应性(小分块)之间动态平衡,但固定分块大小无法实现。

切入角度:动作熵反映预测的不确定性——低熵→高可靠性→可执行大分块;高熵→低可靠性→应缩小分块频繁重新规划。

核心idea:计算不同分块大小对应的平均动作熵,找最大差分点确定最优分块大小。

方法详解

整体框架

在推理时,对每个观测时间步:(1) 并行采样N个候选动作块→(2) 计算每个时间步的连续动作熵和离散动作熵→(3) 找平均熵的最大差分点→(4) 确定最优分块大小→(5) 执行前h个动作。无需额外训练或架构修改*。

关键设计

  1. 动作熵计算:

    • 连续动作(平移/旋转):高斯微分熵 \(E_t = \frac{1}{2}\log[(2\pi e)^d \det(\Sigma_t)]\),从N个候选块估计协方差矩阵
    • 离散动作(夹爪):Shannon熵 \(E_{dis} = -\sum p(a)\log p(a)\),用频率估计概率
    • 平均动作熵:\(\bar{E}_h = \frac{1}{h}\sum_{i=t}^{t+h-1}\sum_{j \in \{t,r,g\}} E_j^i\)
  2. 自适应分块大小选择:

    • 功能:找到平均熵曲线的"拐点"
    • 核心思路:\(h^* = \max(\arg\max_h(\bar{E}_{h+1} - \bar{E}_h), \xi)\)
    • \(\xi\) 是最小分块下界,保证最小动作幅度和计算效率
    • 设计动机:最大差分点意味着从这个分块大小开始,继续增大会导致不确定性急剧增加→这是平衡一致性和反应性的最优切换点
  3. 推理时行为模式:

    • 靠近目标物体时→熵高→小分块+频繁重规划→精细控制
    • 运输阶段→熵低→大分块→高效移动
    • 这与人类直觉完全一致(可视化验证)

损失函数 / 训练策略

AAC不需要任何训练。直接在推理时从flow-matching动作头的多次采样中估计熵。兼容所有基于扩散/流匹配的VLA模型。

实验关键数据

主实验(RoboCasa + LIBERO)

方法 RoboCasa Avg LIBERO Avg
GR00T (h=16, 默认) 59.7% 94.1%
GR00T (h=2) 47.0% 90.2%
GR00T (h=4) 56.2% 92.6%
GR00T (h=8) 61.2% 94.7%
GR00T + AAC 62.0% 95.0%

LIBERO-Long (最难子集): 88.8% → 92.8% (+4.0%)

跨Backbone验证

方法 LIBERO Avg
π0.5 (基线) 97.0%
π0.5 + AAC 97.9%

OOD鲁棒性(LIBERO-Pro位置扰动)

扰动级别 GR00T GR00T+AAC
×0.2 基线 +提升
×0.3 基线 +提升
×0.4 基线 +提升

关键发现

  • 没有单一固定分块大小在所有任务上最优:LIBERO-Spatial最优h=4,LIBERO-Goal最优h=16
  • AAC在所有固定分块大小的平均值之上,且不需要任何手动调参
  • 在长视界任务(LIBERO-Long)上提升最显著(+4%),因为这类任务对反应性要求最高
  • 分块大小的时间分布与任务语义阶段高度吻合:运输→大块,操作→小块

亮点与洞察

  • 零训练开销的推理优化:AAC完全在推理时工作,不需修改模型架构或重新训练,即插即用
  • 动作熵作为通用不确定性度量:跨连续/离散动作空间的统一熵计算框架,可泛化到不同机器人形态(单臂/双臂/人形)
  • 与人类直觉的一致性:可视化分析显示分块大小与任务语义阶段完美对应——粗操作大块、精操作小块,验证了方法的物理合理性

局限与展望

  • N个候选块的并行采样引入额外推理延迟(N越大估计越准但越慢)
  • 最大差分点策略是启发式的,不保证全局最优
  • \(\xi\) 最小分块下界是超参,不同任务可能需要不同值
  • 当前仅在桌面操作任务上验证,更复杂的移动操作(如导航+操作组合)有待探索

相关工作与启发

  • vs ACT (EMA平滑): ACT每步生成新块用EMA融合,分块大小仍固定。AAC自适应选择大小
  • vs BID/TV-BID: BID从多候选块中选最优块但大小固定,AAC同时自适应大小
  • vs 基于RL的自适应方法: 需要额外训练和任务特定奖励信号,AAC无需训练

评分

  • 新颖性: ⭐⭐⭐⭐ 动作熵驱动的分块选择简洁有效,但原理相对直观
  • 实验充分度: ⭐⭐⭐⭐⭐ 多基准、多backbone、OOD测试、真机实验、定性分析全面
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法简洁、可视化出色
  • 价值: ⭐⭐⭐⭐⭐ 对VLA部署有直接实用价值,零开销即插即用

相关论文