跳转至

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

会议: CVPR 2026
arXiv: 2603.07648
代码: https://zhanglk9.github.io/atomicvla-web/ (有)
领域: 机器人/具身智能
关键词: VLA, 原子技能, 混合专家, 持续学习, 长时任务规划

一句话总结

AtomicVLA 提出统一规划-执行框架,通过Think-Act自适应切换生成任务链和原子技能抽象,用技能引导MoE(SG-MoE)构建可扩展的原子技能专家库,在LIBERO-LONG上超π₀ 10%,真实世界持续学习超基线21%且遗忘仅1.3%。

背景与动机

现有VLA模型用单一动作解码器训练在混合数据上,面临两大问题:(1)长时horizon任务需要任务分解+规划能力,但模块化解耦(VLM规划器+VLA控制器)导致上下游不同步;(2)单解码器混合训练时不同技能相互干扰,增量学习新技能导致灾难性遗忘。核心挑战是:如何在统一框架中实现任务规划、精确执行和可扩展的持续技能学习?

核心问题

如何构建一个端到端的VLA框架,既能自适应地做高层任务规划和原子技能分解,又能通过模块化专家库实现高效的多技能学习和无遗忘的持续扩展?

方法详解

整体框架

基于π₀/π₀.5构建。模型在每个时间步自适应预测[think]或[act]标识符。[think]模式下生成任务链\(C_{0-k}\)、当前进度\(C_t\)和原子技能抽象\(\sigma\)(如pick/place/open等);[act]模式下根据最新\(\sigma\)激活对应技能专家生成动作chunk。SG-MoE动作解码器由共享专家(保留π₀通用能力)+多个原子技能专家组成。

关键设计

  1. 统一Think-Act架构: 不是外部VLM+VLA的两段式,而是单一VLM自适应决定是做规划还是执行。在任务初始或子技能切换时触发Think输出任务链+原子技能抽象,其余时间Act直接生成动作。关键优势:规划和执行共享同一表征空间,避免模块间信息损失。

  2. 技能引导MoE(SG-MoE): 每个原子技能\(\sigma\)被映射到固定的高维嵌入向量\(Z_\sigma\)(借鉴扩散模型的噪声调度编码),路由器根据\(Z_\sigma\)选择top-1技能专家。输出为共享专家和选中专家的加权组合:\(F_{\text{out}} = (1-w_k) \cdot F_{\text{share}}(x_t) + w_k \cdot F_k(x_t)\)。与标准MoE的区别:不是token级路由,而是技能级路由——同一技能阶段所有token都走同一专家,确保技能内一致性。消融显示SG-MoE(95.2%)远优于标准MoE(88.6%)和时间步MoDE(89.5%)。

  3. 持续学习技能扩展: 新技能引入时,只需添加新专家+扩展路由器(从原路由器权重初始化,新分支用小随机值),仅训练新专家和路由参数,已有专家完全冻结。实验显示π₀.5学新技能后旧技能平均掉15%(stack甚至掉20%),AtomicVLA*仅掉1.3%。

损失函数 / 训练策略

基于π₀的flow matching训练。原子技能标注通过主轴分析(PCA分析末端执行器轨迹的平移/旋转/夹爪状态变化)自动分割+InternVideo2.5验证。LIBERO用5个专家,CALVIN用8个。100K步训练(8×H200 GPU),真实世界30K步。

实验关键数据

基准 指标 AtomicVLA(*) π₀ / π₀.5 提升
LIBERO-LONG SR(%) 95.2 85.2 (π₀) +10.0
LIBERO Avg SR(%) 96.6/97.8 94.2 (π₀) +2.4
CALVIN ABC-D Avg Len 4.09/4.27 3.87/4.02 +0.22/+0.25
真实·长horizon (3任务) Avg SR(%) 56.7/63.3 36.7/45.0 +20/+18.3
真实·持续学习 (5任务) Avg SR(%) 82 61 (π₀.5 CL) +21
真实·遗忘度 ΔAvg(%) -1.3 -15.0 (π₀.5) 显著改善

消融实验要点

  • SG-MoE vs 标准MoE vs MoDE vs 无MoE: 95.2% vs 88.6% vs 89.5% vs 85.2%(LIBERO-LONG)
  • 技能级路由远优于token级/时间步级:确保同一技能执行的一致性
  • 持续学习:π₀.5学新技能后stack掉20%,AtomicVLA*几乎不掉(甚至close从70→80%提升)
  • 混合训练干扰:open drawer任务不需夹爪关合→干扰其他grasping任务,SG-MoE有效隔离
  • 错误恢复:当子技能失败时能自动重规划重试

亮点

  • Think-Act统一框架解决了模块化方案的上下游脱节问题,自适应切换优雅实用
  • 将MoE从通用routing重新诠释为"技能模块化"——每个专家对应一个语义明确的原子技能,可解释性强
  • 持续学习方案极其简洁(加专家+扩路由器),遗忘仅1.3%(π₀.5的-15%对比鲜明)
  • 主轴分析的原子技能自动标注管线减少了对人工标注的依赖
  • 真实机器人上混合训练3个长horizon任务且一致超越π₀.5

局限性 / 可改进方向

  • 依赖VLM的规划准确性——如果VLM给出错误的原子技能抽象,错误会传播到执行
  • 新技能仍需收集大量演示数据做模仿学习,未探索RL或少样本学习
  • 原子技能粒度固定(Pick/Place/Open等),更细粒度或更抽象的技能层级未探索
  • 推理时Think模式约104ms + Act模式92ms(5专家),合计约200ms

与相关工作的对比

  • π₀/π₀.5: 统一VLA但单解码器,混合训练有技能干扰;AtomicVLA用SG-MoE隔离技能
  • MoDE: token级MoE去噪器,专家间无语义对应;AtomicVLA的技能级路由更有效(+5.7%)
  • Hi-Robot/OneTwoVLA等: 也做统一规划-执行,但无技能模块化设计导致持续学习困难
  • LOTUS等持续学习: 无监督技能发现但非VLA架构;AtomicVLA在VLA框架内实现可扩展的技能库

启发与关联

  • "原子技能"作为VLA的中间抽象层,可以和之前读的Fast-ThinkAct的"潜在推理"互补——一个用文本技能抽象,一个用连续潜在表征
  • 技能级MoE路由的设计可以推广到多任务VLA的scaling研究

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Think-Act统一+技能级MoE+持续扩展的组合非常完整且原创
  • 实验充分度: ⭐⭐⭐⭐⭐ LIBERO+CALVIN+真实Franka长horizon+持续学习+消融,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 架构清晰,可视化丰富,技术细节充足
  • 价值: ⭐⭐⭐⭐⭐ 为VLA的可扩展性和持续学习提供了实际解决方案