Adaptive Action Chunking at Inference-time for Vision-Language-Action Models¶
会议: CVPR 2026
arXiv: 2604.04161
代码: https://lance-lot.github.io/adaptive-chunking.github.io/ (有)
领域: 机器人 / VLA模型
关键词: 动作分块, VLA模型, 自适应推理, 动作熵, 机器人操作
一句话总结¶
提出自适应动作分块(AAC)策略,利用动作熵作为线索在推理时动态确定最优分块大小,无需额外训练或架构修改,在RoboCasa和LIBERO等基准上持续提升GR00T N1.5和π0.5的任务成功率。
研究背景与动机¶
领域现状:VLA模型中,动作分块(一次性执行一组动作而不中间重新规划)是提高机器人操作能力的关键技术。当前主流VLA模型(GR00T N1.5、π0、SmolVLA)都使用固定的分块大小。
现有痛点:(1) 大分块→响应性差,无法及时适应新信息;(2) 小分块→mode-jumping,分块间不连续导致抖动;(3) 不同任务的最优分块大小不同(实验证明:同一模型在不同RoboCasa任务上,最优分块从4到16不等)。现有方法如ACT用EMA平滑、BID搜索最优分块,但都使用固定大小。
核心矛盾:需要在一致性(大分块)和反应性(小分块)之间动态平衡,但固定分块大小无法实现。
切入角度:动作熵反映预测的不确定性——低熵→高可靠性→可执行大分块;高熵→低可靠性→应缩小分块频繁重新规划。
核心idea:计算不同分块大小对应的平均动作熵,找最大差分点确定最优分块大小。
方法详解¶
整体框架¶
在推理时,对每个观测时间步:(1) 并行采样N个候选动作块→(2) 计算每个时间步的连续动作熵和离散动作熵→(3) 找平均熵的最大差分点→(4) 确定最优分块大小→(5) 执行前h个动作。无需额外训练或架构修改*。
关键设计¶
-
动作熵计算:
- 连续动作(平移/旋转):高斯微分熵 \(E_t = \frac{1}{2}\log[(2\pi e)^d \det(\Sigma_t)]\),从N个候选块估计协方差矩阵
- 离散动作(夹爪):Shannon熵 \(E_{dis} = -\sum p(a)\log p(a)\),用频率估计概率
- 平均动作熵:\(\bar{E}_h = \frac{1}{h}\sum_{i=t}^{t+h-1}\sum_{j \in \{t,r,g\}} E_j^i\)
-
自适应分块大小选择:
- 功能:找到平均熵曲线的"拐点"
- 核心思路:\(h^* = \max(\arg\max_h(\bar{E}_{h+1} - \bar{E}_h), \xi)\)
- \(\xi\) 是最小分块下界,保证最小动作幅度和计算效率
- 设计动机:最大差分点意味着从这个分块大小开始,继续增大会导致不确定性急剧增加→这是平衡一致性和反应性的最优切换点
-
推理时行为模式:
- 靠近目标物体时→熵高→小分块+频繁重规划→精细控制
- 运输阶段→熵低→大分块→高效移动
- 这与人类直觉完全一致(可视化验证)
损失函数 / 训练策略¶
AAC不需要任何训练。直接在推理时从flow-matching动作头的多次采样中估计熵。兼容所有基于扩散/流匹配的VLA模型。
实验关键数据¶
主实验(RoboCasa + LIBERO)¶
| 方法 | RoboCasa Avg | LIBERO Avg |
|---|---|---|
| GR00T (h=16, 默认) | 59.7% | 94.1% |
| GR00T (h=2) | 47.0% | 90.2% |
| GR00T (h=4) | 56.2% | 92.6% |
| GR00T (h=8) | 61.2% | 94.7% |
| GR00T + AAC | 62.0% | 95.0% |
LIBERO-Long (最难子集): 88.8% → 92.8% (+4.0%)
跨Backbone验证¶
| 方法 | LIBERO Avg |
|---|---|
| π0.5 (基线) | 97.0% |
| π0.5 + AAC | 97.9% |
OOD鲁棒性(LIBERO-Pro位置扰动)¶
| 扰动级别 | GR00T | GR00T+AAC |
|---|---|---|
| ×0.2 | 基线 | +提升 |
| ×0.3 | 基线 | +提升 |
| ×0.4 | 基线 | +提升 |
关键发现¶
- 没有单一固定分块大小在所有任务上最优:LIBERO-Spatial最优h=4,LIBERO-Goal最优h=16
- AAC在所有固定分块大小的平均值之上,且不需要任何手动调参
- 在长视界任务(LIBERO-Long)上提升最显著(+4%),因为这类任务对反应性要求最高
- 分块大小的时间分布与任务语义阶段高度吻合:运输→大块,操作→小块
亮点与洞察¶
- 零训练开销的推理优化:AAC完全在推理时工作,不需修改模型架构或重新训练,即插即用
- 动作熵作为通用不确定性度量:跨连续/离散动作空间的统一熵计算框架,可泛化到不同机器人形态(单臂/双臂/人形)
- 与人类直觉的一致性:可视化分析显示分块大小与任务语义阶段完美对应——粗操作大块、精操作小块,验证了方法的物理合理性
局限与展望¶
- N个候选块的并行采样引入额外推理延迟(N越大估计越准但越慢)
- 最大差分点策略是启发式的,不保证全局最优
- \(\xi\) 最小分块下界是超参,不同任务可能需要不同值
- 当前仅在桌面操作任务上验证,更复杂的移动操作(如导航+操作组合)有待探索
相关工作与启发¶
- vs ACT (EMA平滑): ACT每步生成新块用EMA融合,分块大小仍固定。AAC自适应选择大小
- vs BID/TV-BID: BID从多候选块中选最优块但大小固定,AAC同时自适应大小
- vs 基于RL的自适应方法: 需要额外训练和任务特定奖励信号,AAC无需训练
评分¶
- 新颖性: ⭐⭐⭐⭐ 动作熵驱动的分块选择简洁有效,但原理相对直观
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准、多backbone、OOD测试、真机实验、定性分析全面
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法简洁、可视化出色
- 价值: ⭐⭐⭐⭐⭐ 对VLA部署有直接实用价值,零开销即插即用
相关论文¶
- [CVPR 2026] SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics
- [ICLR 2026] Real-Time Robot Execution with Masked Action Chunking
- [CVPR 2026] HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
- [CVPR 2026] Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior
- [CVPR 2026] Language-Grounded Decoupled Action Representation for Robotic Manipulation