跳转至

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

会议: CVPR 2026
arXiv: 2603.07648
代码: 待确认
领域: 机器人操作 / 视觉-语言-动作模型
关键词: [VLA, 原子技能, Mixture-of-Experts, 持续学习, 任务规划, 技能路由]

一句话总结

提出AtomicVLA,统一任务规划(thinking)和动作执行(acting),通过自适应[think]/[act]切换、技能引导MoE(SG-MoE)和可扩展持续学习机制,在LIBERO-LONG上超越π₀达10%,真实Franka长任务+18.3%,实现高效的原子技能分解与持续获取。

背景与动机

VLA模型(如π₀、OpenVLA)在机器人操作取得显著进展,但面临两个根本性瓶颈:

  1. 多步长任务推理不足:现有VLA直接从观测映射到动作,缺乏显式的任务分解和进度感知能力。面对"先打开抽屉,再拿出杯子,最后关上抽屉"这类多步长任务时,模型容易在中间步骤迷失、跳步或重复执行。
  2. 持续技能获取困难:当需要学习新技能时,现有模型要么全量微调导致灾难性遗忘(旧技能性能骤降),要么需要重新训练整个模型,计算代价高昂。

根本原因在于:现有VLA将所有技能的知识混合在同一组参数中,既没有显式的技能抽象层,也没有模块化的知识存储机制。

核心问题

如何让VLA模型 (1) 在执行前进行显式任务规划并追踪执行进度,(2) 将复杂任务分解为可复用的原子技能,(3) 在不遗忘已有技能的前提下持续获取新技能?

方法详解

整体框架

AtomicVLA在π₀基础架构上构建,统一thinking和acting两种模式:输入视觉观测V_t + 语言指令L → 自适应预测[think]或[act] token → [think]触发任务链生成和原子技能抽象 → [act]触发动作chunk生成,由SG-MoE基于技能嵌入路由到专精expert执行。

关键设计

  1. 自适应Think-Act切换(Sec 3.1): 模型在每个决策步自适应预测特殊token [think]或[act]。当预测[think]时,生成三部分输出:(a) 完整任务链C_{0→k}——将语言指令分解为有序子目标序列;(b) 当前进度标识C_t——指示已完成到第几步;(c) 原子技能抽象σ——将当前子目标进一步抽象为一个原子技能标签(如"grasp"、"push"、"rotate")。当预测[act]时,直接输出动作chunk用于控制。这种设计让模型具备"先想后做"的能力,同时避免每步都做规划的计算浪费——只在需要时think。

  2. 技能引导MoE(SG-MoE, Sec 3.2): 替换π₀中的标准FFN为MoE结构:

  3. 共享expert:保留π₀预训练的通用知识,所有token都经过此expert
  4. 多个原子技能expert:每个expert专精一种原子技能(如grasp expert、push expert),通过训练自然分化
  5. Skill router:关键创新——不使用传统的token嵌入路由,而是基于原子技能标签σ构建噪声调度式嵌入Z_σ = E(norm(log(σ))),然后路由到top-1技能expert。这里E是可学习的嵌入层,norm和log是归一化操作,灵感来自扩散模型的噪声调度。这种设计使router对离散技能标签敏感而非对连续token特征敏感,确保同一技能的所有动作都由同一expert处理

  6. 持续学习机制(Sec 3.3): 当需要学习新技能时:

  7. 新增一个技能expert,随机初始化
  8. 扩展skill router的嵌入空间以覆盖新技能标签
  9. 冻结所有已有expert的参数——只训练新expert和更新后的router
  10. 共享expert始终冻结,保持基础能力不退化
  11. 这种"只加不改"的策略从架构层面避免了灾难性遗忘

  12. 高质量Embodied Reasoning数据生成(Sec 3.4): 训练数据构建流程:

  13. 对原始机器人演示视频做主轴动作分析(PCA-based),自动分割为原子技能片段
  14. 用InternVideo2.5对每个片段生成"thinking"标注——包括任务链、进度和技能抽象
  15. 最终数据格式:(观测, 语言指令, [think], 任务链, 进度, 技能标签, [act], 动作chunk)

损失函数 / 训练策略

  • Think模式:交叉熵损失,预测任务链、进度和技能标签的token序列
  • Act模式:Flow matching损失(继承π₀),预测连续动作chunk
  • 总损失:L_total = L_think + L_act
  • 两阶段训练:先在多任务数据上联合训练所有expert → 持续学习阶段冻结旧expert、训练新expert

实验关键数据

数据集 指标 AtomicVLA π₀ π₀.5 提升(vs π₀)
LIBERO-Spatial 成功率 96.8% 96.0% +0.8
LIBERO-Object 成功率 98.0% 96.5% +1.5
LIBERO-Goal 成功率 94.4% 91.3% +3.1
LIBERO-Long 成功率 82.6% 72.6% +10.0
LIBERO-Avg 成功率 93.0% 89.1% 90.6% +2.4
CALVIN (ABC→D) Avg Len 3.62 3.40 3.37 +0.22
CALVIN (ABCD→D) Avg Len 3.72 3.47 +0.25
真实Franka长任务 成功率 78.3% 60.0% +18.3%
持续学习(新技能) 成功率 81.0% 60.0%* +21.0%

消融实验要点

  • 移除Think模块:LIBERO-Long从82.6%降至74.2%,长序列任务最依赖显式规划
  • 移除SG-MoE换为标准FFN:LIBERO-Avg从93.0%降至89.8%,技能专精化是关键
  • Skill router替换为标准token router:性能降至90.5%,证明噪声调度式技能嵌入优于通用路由
  • 持续学习对比:全量微调新技能后旧技能成功率下降15%+,AtomicVLA旧技能保持不变

亮点

  • Think-Act统一范式新颖:不是简单的chain-of-thought,而是与原子技能抽象深度耦合的规划-执行统一框架
  • SG-MoE的噪声调度式路由:借鉴扩散模型的思路做技能路由,设计巧妙且有效
  • 持续学习从架构层面解决遗忘:不依赖正则化或回放缓冲区,而是通过冻结+扩展的模块化设计
  • LIBERO-Long大幅领先:+10%的提升说明显式规划对多步长任务确实至关重要
  • 真实机器人验证充分:Franka上长任务+18.3%,持续学习+21%,不只是仿真刷点

局限性 / 可改进方向

  • 原子技能标签依赖InternVideo2.5生成,标签质量受限于VLM能力——对罕见或高度专业化的操作可能标注不准
  • SG-MoE的top-1路由意味着每个动作只由一个技能expert处理——某些需要多技能协同的动作(如"边推边转")可能需要top-k路由
  • 持续学习每加一个新技能就新增一个expert,长期来看参数量线性增长——需要expert合并或剪枝策略
  • CALVIN上的提升(+0.22 avg len)相对LIBERO较小,可能因CALVIN任务粒度与原子技能的对齐不够紧密

与相关工作的对比

  • vs π₀ / π₀.5 (纯动作预测): π₀用flow matching直接预测动作,没有显式规划。AtomicVLA在其基础上增加thinking模块和技能路由,LIBERO-Long +10%证明规划的价值
  • vs SayCan / Inner Monologue (LLM规划+底层策略): 这类方法用外部LLM做高层规划,规划和执行分离。AtomicVLA将规划和执行统一在同一模型中,避免了模态gap和延迟问题
  • vs MergeVLA (模型合并): MergeVLA通过合并多个专精模型获取跨技能能力,但合并过程可能损失精度。AtomicVLA用MoE保持各技能expert独立,避免知识冲突
  • vs RehearseVLA (世界模型后训练): RehearseVLA用世界模型做RL后训练增强少样本能力。两者互补——AtomicVLA的技能抽象可以为RehearseVLA提供更好的状态表示

启发与关联

  • MoE技能路由的通用性:噪声调度式嵌入路由不仅适用于机器人技能,也可用于多任务NLP——将不同NLP任务映射到不同expert,用任务描述的嵌入做路由
  • 持续学习的模块化范式:冻结旧expert+新增新expert的思路可以迁移到视觉大模型的持续预训练——每个新域训一个domain expert
  • Think-Act交替:这种自适应决定"该想还是该做"的机制可以应用到自动驾驶场景——简单路段直接act,复杂交叉路口先think再act

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Think-Act统一 + SG-MoE + 模块化持续学习,三大贡献均有创新性
  • 实验充分度: ⭐⭐⭐⭐ LIBERO四子集 + CALVIN + 真实Franka实验 + 完整消融,持续学习验证有力
  • 写作质量: ⭐⭐⭐⭐ 动机→方法→实验逻辑清晰,SG-MoE图示直观
  • 价值: ⭐⭐⭐⭐⭐ 对VLA持续学习和多步规划有重要贡献,实用性强