AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶
会议: CVPR 2026
arXiv: 2603.07648
代码: https://zhanglk9.github.io/atomicvla-web/ (有)
领域: 机器人/具身智能
关键词: VLA, 原子技能, 混合专家, 持续学习, 长时任务规划
一句话总结¶
AtomicVLA 提出统一规划-执行框架,通过Think-Act自适应切换生成任务链和原子技能抽象,用技能引导MoE(SG-MoE)构建可扩展的原子技能专家库,在LIBERO-LONG上超π₀ 10%,真实世界持续学习超基线21%且遗忘仅1.3%。
背景与动机¶
现有VLA模型用单一动作解码器训练在混合数据上,面临两大问题:(1)长时horizon任务需要任务分解+规划能力,但模块化解耦(VLM规划器+VLA控制器)导致上下游不同步;(2)单解码器混合训练时不同技能相互干扰,增量学习新技能导致灾难性遗忘。核心挑战是:如何在统一框架中实现任务规划、精确执行和可扩展的持续技能学习?
核心问题¶
如何构建一个端到端的VLA框架,既能自适应地做高层任务规划和原子技能分解,又能通过模块化专家库实现高效的多技能学习和无遗忘的持续扩展?
方法详解¶
整体框架¶
基于π₀/π₀.5构建。模型在每个时间步自适应预测[think]或[act]标识符。[think]模式下生成任务链\(C_{0-k}\)、当前进度\(C_t\)和原子技能抽象\(\sigma\)(如pick/place/open等);[act]模式下根据最新\(\sigma\)激活对应技能专家生成动作chunk。SG-MoE动作解码器由共享专家(保留π₀通用能力)+多个原子技能专家组成。
关键设计¶
-
统一Think-Act架构: 不是外部VLM+VLA的两段式,而是单一VLM自适应决定是做规划还是执行。在任务初始或子技能切换时触发Think输出任务链+原子技能抽象,其余时间Act直接生成动作。关键优势:规划和执行共享同一表征空间,避免模块间信息损失。
-
技能引导MoE(SG-MoE): 每个原子技能\(\sigma\)被映射到固定的高维嵌入向量\(Z_\sigma\)(借鉴扩散模型的噪声调度编码),路由器根据\(Z_\sigma\)选择top-1技能专家。输出为共享专家和选中专家的加权组合:\(F_{\text{out}} = (1-w_k) \cdot F_{\text{share}}(x_t) + w_k \cdot F_k(x_t)\)。与标准MoE的区别:不是token级路由,而是技能级路由——同一技能阶段所有token都走同一专家,确保技能内一致性。消融显示SG-MoE(95.2%)远优于标准MoE(88.6%)和时间步MoDE(89.5%)。
-
持续学习技能扩展: 新技能引入时,只需添加新专家+扩展路由器(从原路由器权重初始化,新分支用小随机值),仅训练新专家和路由参数,已有专家完全冻结。实验显示π₀.5学新技能后旧技能平均掉15%(stack甚至掉20%),AtomicVLA*仅掉1.3%。
损失函数 / 训练策略¶
基于π₀的flow matching训练。原子技能标注通过主轴分析(PCA分析末端执行器轨迹的平移/旋转/夹爪状态变化)自动分割+InternVideo2.5验证。LIBERO用5个专家,CALVIN用8个。100K步训练(8×H200 GPU),真实世界30K步。
实验关键数据¶
| 基准 | 指标 | AtomicVLA(*) | π₀ / π₀.5 | 提升 |
|---|---|---|---|---|
| LIBERO-LONG | SR(%) | 95.2 | 85.2 (π₀) | +10.0 |
| LIBERO Avg | SR(%) | 96.6/97.8 | 94.2 (π₀) | +2.4 |
| CALVIN ABC-D | Avg Len | 4.09/4.27 | 3.87/4.02 | +0.22/+0.25 |
| 真实·长horizon (3任务) | Avg SR(%) | 56.7/63.3 | 36.7/45.0 | +20/+18.3 |
| 真实·持续学习 (5任务) | Avg SR(%) | 82 | 61 (π₀.5 CL) | +21 |
| 真实·遗忘度 | ΔAvg(%) | -1.3 | -15.0 (π₀.5) | 显著改善 |
消融实验要点¶
- SG-MoE vs 标准MoE vs MoDE vs 无MoE: 95.2% vs 88.6% vs 89.5% vs 85.2%(LIBERO-LONG)
- 技能级路由远优于token级/时间步级:确保同一技能执行的一致性
- 持续学习:π₀.5学新技能后stack掉20%,AtomicVLA*几乎不掉(甚至close从70→80%提升)
- 混合训练干扰:open drawer任务不需夹爪关合→干扰其他grasping任务,SG-MoE有效隔离
- 错误恢复:当子技能失败时能自动重规划重试
亮点¶
- Think-Act统一框架解决了模块化方案的上下游脱节问题,自适应切换优雅实用
- 将MoE从通用routing重新诠释为"技能模块化"——每个专家对应一个语义明确的原子技能,可解释性强
- 持续学习方案极其简洁(加专家+扩路由器),遗忘仅1.3%(π₀.5的-15%对比鲜明)
- 主轴分析的原子技能自动标注管线减少了对人工标注的依赖
- 真实机器人上混合训练3个长horizon任务且一致超越π₀.5
局限性 / 可改进方向¶
- 依赖VLM的规划准确性——如果VLM给出错误的原子技能抽象,错误会传播到执行
- 新技能仍需收集大量演示数据做模仿学习,未探索RL或少样本学习
- 原子技能粒度固定(Pick/Place/Open等),更细粒度或更抽象的技能层级未探索
- 推理时Think模式约104ms + Act模式92ms(5专家),合计约200ms
与相关工作的对比¶
- π₀/π₀.5: 统一VLA但单解码器,混合训练有技能干扰;AtomicVLA用SG-MoE隔离技能
- MoDE: token级MoE去噪器,专家间无语义对应;AtomicVLA的技能级路由更有效(+5.7%)
- Hi-Robot/OneTwoVLA等: 也做统一规划-执行,但无技能模块化设计导致持续学习困难
- LOTUS等持续学习: 无监督技能发现但非VLA架构;AtomicVLA在VLA框架内实现可扩展的技能库
启发与关联¶
- "原子技能"作为VLA的中间抽象层,可以和之前读的Fast-ThinkAct的"潜在推理"互补——一个用文本技能抽象,一个用连续潜在表征
- 技能级MoE路由的设计可以推广到多任务VLA的scaling研究
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Think-Act统一+技能级MoE+持续扩展的组合非常完整且原创
- 实验充分度: ⭐⭐⭐⭐⭐ LIBERO+CALVIN+真实Franka长horizon+持续学习+消融,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 架构清晰,可视化丰富,技术细节充足
- 价值: ⭐⭐⭐⭐⭐ 为VLA的可扩展性和持续学习提供了实际解决方案