Adaptive Action Chunking at Inference-time for Vision-Language-Action Models¶

会议: CVPR 2026
arXiv: 2604.04161
代码: https://lance-lot.github.io/adaptive-chunking.github.io/ (有)
领域: 机器人 / VLA模型
关键词: 动作分块, VLA模型, 自适应推理, 动作熵, 机器人操作

一句话总结¶

提出自适应动作分块(AAC)策略，利用动作熵作为线索在推理时动态确定最优分块大小，无需额外训练或架构修改，在RoboCasa和LIBERO等基准上持续提升GR00T N1.5和π0.5的任务成功率。

研究背景与动机¶

领域现状：VLA模型中，动作分块（一次性执行一组动作而不中间重新规划）是提高机器人操作能力的关键技术。当前主流VLA模型（GR00T N1.5、π0、SmolVLA）都使用固定的分块大小。

现有痛点：(1) 大分块→响应性差，无法及时适应新信息；(2) 小分块→mode-jumping，分块间不连续导致抖动；(3) 不同任务的最优分块大小不同（实验证明：同一模型在不同RoboCasa任务上，最优分块从4到16不等）。现有方法如ACT用EMA平滑、BID搜索最优分块，但都使用固定大小。

核心矛盾：需要在一致性（大分块）和反应性（小分块）之间动态平衡，但固定分块大小无法实现。

切入角度：动作熵反映预测的不确定性——低熵→高可靠性→可执行大分块；高熵→低可靠性→应缩小分块频繁重新规划。

核心idea：计算不同分块大小对应的平均动作熵，找最大差分点确定最优分块大小。

方法详解¶

整体框架¶

在推理时，对每个观测时间步：(1) 并行采样N个候选动作块→(2) 计算每个时间步的连续动作熵和离散动作熵→(3) 找平均熵的最大差分点→(4) 确定最优分块大小→(5) 执行前h个动作。无需额外训练或架构修改*。

关键设计¶

动作熵计算:
- 连续动作(平移/旋转)：高斯微分熵 \(E_t = \frac{1}{2}\log[(2\pi e)^d \det(\Sigma_t)]\)，从N个候选块估计协方差矩阵
- 离散动作(夹爪)：Shannon熵 \(E_{dis} = -\sum p(a)\log p(a)\)，用频率估计概率
- 平均动作熵：\(\bar{E}_h = \frac{1}{h}\sum_{i=t}^{t+h-1}\sum_{j \in \{t,r,g\}} E_j^i\)
自适应分块大小选择:
- 功能：找到平均熵曲线的"拐点"
- 核心思路：\(h^* = \max(\arg\max_h(\bar{E}_{h+1} - \bar{E}_h), \xi)\)
- \(\xi\) 是最小分块下界，保证最小动作幅度和计算效率
- 设计动机：最大差分点意味着从这个分块大小开始，继续增大会导致不确定性急剧增加→这是平衡一致性和反应性的最优切换点
推理时行为模式:
- 靠近目标物体时→熵高→小分块+频繁重规划→精细控制
- 运输阶段→熵低→大分块→高效移动
- 这与人类直觉完全一致（可视化验证）

损失函数 / 训练策略¶

AAC不需要任何训练。直接在推理时从flow-matching动作头的多次采样中估计熵。兼容所有基于扩散/流匹配的VLA模型。

实验关键数据¶

主实验（RoboCasa + LIBERO）¶

方法	RoboCasa Avg	LIBERO Avg
GR00T (h=16, 默认)	59.7%	94.1%
GR00T (h=2)	47.0%	90.2%
GR00T (h=4)	56.2%	92.6%
GR00T (h=8)	61.2%	94.7%
GR00T + AAC	62.0%	95.0%

LIBERO-Long (最难子集): 88.8% → 92.8% (+4.0%)

跨Backbone验证¶

方法	LIBERO Avg
π0.5 (基线)	97.0%
π0.5 + AAC	97.9%

OOD鲁棒性（LIBERO-Pro位置扰动）¶

扰动级别	GR00T	GR00T+AAC
×0.2	基线	+提升
×0.3	基线	+提升
×0.4	基线	+提升

关键发现¶

没有单一固定分块大小在所有任务上最优：LIBERO-Spatial最优h=4，LIBERO-Goal最优h=16
AAC在所有固定分块大小的平均值之上，且不需要任何手动调参
在长视界任务(LIBERO-Long)上提升最显著(+4%)，因为这类任务对反应性要求最高
分块大小的时间分布与任务语义阶段高度吻合：运输→大块，操作→小块

亮点与洞察¶

零训练开销的推理优化：AAC完全在推理时工作，不需修改模型架构或重新训练，即插即用
动作熵作为通用不确定性度量：跨连续/离散动作空间的统一熵计算框架，可泛化到不同机器人形态（单臂/双臂/人形）
与人类直觉的一致性：可视化分析显示分块大小与任务语义阶段完美对应——粗操作大块、精操作小块，验证了方法的物理合理性

局限与展望¶

N个候选块的并行采样引入额外推理延迟（N越大估计越准但越慢）
最大差分点策略是启发式的，不保证全局最优
\(\xi\) 最小分块下界是超参，不同任务可能需要不同值
当前仅在桌面操作任务上验证，更复杂的移动操作（如导航+操作组合）有待探索

评分¶

新颖性: ⭐⭐⭐⭐ 动作熵驱动的分块选择简洁有效，但原理相对直观
实验充分度: ⭐⭐⭐⭐⭐ 多基准、多backbone、OOD测试、真机实验、定性分析全面
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法简洁、可视化出色
价值: ⭐⭐⭐⭐⭐ 对VLA部署有直接实用价值，零开销即插即用