跳转至

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

日期: 2026-03-08
arXiv: 2603.07648
代码: 有(项目页)
领域: 机器人
关键词: VLA model, atomic skill, mixture-of-experts, continual learning, robotic manipulation

一句话总结

提出 AtomicVLA,统一任务规划与动作执行的端到端框架——VLM 自适应切换 Thinking(生成任务链+原子技能抽象)和 Acting(SG-MoE 动态路由到对应技能专家生成动作)模式,通过模块化技能库支持新技能持续学习无灾难性遗忘,在 LIBERO-LONG 上超越 π₀ 10%,真实 Franka 上持续学习提升 21%。

研究背景与动机

  1. 领域现状: VLA 模型(π₀, OpenVLA, SpatialVLA 等)将视觉、语言、动作统一到单一框架,在机器人操作上取得显著进展。但面临三个部署瓶颈:长程任务规划、技能扩展和灾难性遗忘。
  2. 现有痛点: (a) 长程任务——两阶段方案(VLM 规划器 + VLA 控制器)存在规划-执行解耦导致的协调失调和系统延迟下的过时指令;单一动作解码器的端到端方案缺乏结构化任务分解。(b) 技能扩展——单一解码器增量学习新技能需要重新训练,计算成本高且数据稀缺。(c) 灾难性遗忘——混合训练异质任务时技能间相互干扰(如开抽屉不需要闭合 gripper 但会影响其他抓取任务的 gripper 行为)。
  3. 核心矛盾: 需要同时支持"高层推理+细粒度执行"和"可扩展的持续学习",但现有 VLA 的单一单体解码器在两方面都受限。
  4. 切入角度: 把 MoE 范式重新解读为"技能模块化"——每个专家对应一个语义化的、可复用的原子技能原语。通过 Think-Act 统一架构做端到端的任务规划和技能分解,通过模块化专家库实现无遗忘的技能扩展。

方法详解

整体框架

AtomicVLA 基于 π₀ VLA 基础模型扩展。输入当前多相机观测 \(O_t^{1:n}\) 和语言指令 \(\ell\) → 模型预测标识符 [think] 或 [act]: - [think] 模式(任务初始化或子技能切换时):生成任务链 \(C_{0-k}\)(高层计划)+ 当前进度 \(C_t\) + 原子技能抽象 \(\sigma\) - [act] 模式(执行阶段):基于最近一次 \(\sigma\) 通过 SG-MoE 路由到对应技能专家,输出动作 chunk \(A_t\)

关键设计

  1. 自适应 Think-Act 切换:

    • 做什么:在同一模型内统一任务规划和动作执行,自动决定何时"思考"何时"执行"
    • 核心思路:引入 [think] 和 [act] 两种特殊输出 token。模型基于当前视觉观测预测需要哪种模式——关键时步(任务开始/子技能切换)触发 thinking 生成计划和技能抽象,其余时步执行 acting 生成动作
    • 设计动机:比两阶段方案更紧密耦合(规划和执行共享同一表示空间),比纯动作输出方案有结构化的推理能力
  2. Skill-Guided MoE (SG-MoE):

    • 做什么:构建可扩展的原子技能库,每个专家专精一种原子技能
    • 核心思路:包含技能路由器、共享专家(保留 π₀ 的通用动作生成能力)和 K 个技能专家。原子技能抽象 \(\sigma\) 通过噪声调度风格编码映射到高维向量 \(Z_\sigma = E(\text{norm}(\log(\sigma)))\),路由器计算专家分数 \(w_k = \text{Router}(Z_\sigma)\),稀疏激活 top-1 专家,最终输出 \(F_{out} = (1-w_k) \cdot F_{share}(x_t) + w_k \cdot F_k(x_t)\)
    • 设计动机:与标准 MoE(token 级独立路由)不同,SG-MoE 用语义化的技能抽象来引导路由,确保同一技能始终激活同一专家。共享专家保留 π₀ 的泛化能力,技能专家提供精确执行
  3. 持续学习的技能扩展:

    • 做什么:新增原子技能时只训练新专家+扩展路由器,旧专家冻结
    • 核心思路:新技能映射到新的固定嵌入 \(Z_{\sigma_{new}}\),添加新专家模块到现有架构,路由器用旧权重初始化+新分支小随机值初始化,只需少量微调
    • 设计动机:模块化设计天然支持增量扩展,避免全模型重训和灾难性遗忘
  4. 基于主轴分析的数据生成 Pipeline:

    • 做什么:自动将连续轨迹分解为原子技能片段并标注语义
    • 核心思路:分析末端执行器轨迹的主运动方向——比较平移/旋转分量大小 + 监控 gripper 状态变化 → 粗粒度分割。例如 z 坐标持续下降+gripper 关闭→"pick",有限平移+显著旋转+gripper 关闭→"turn"。再用 InternVideo2.5 验证和丰富分割结果
    • 设计动机:避免了纯 VLM/光流方法的歧义和手动后处理,物理特征驱动的分解更准确且自动化程度更高

损失函数 / 训练策略

  • 基于 π₀ 和 π₀.5 预训练模型,保留其 flow matching 动作生成范式
  • LIBERO/CALVIN 实验分别用 5/8 个技能专家
  • 真实机器人实验用 5 种短任务(每种 50 条轨迹)+ 3 种长程任务(每种 100 条轨迹),共 550 条

实验关键数据

主实验

方法 LIBERO Avg LIBERO-LONG CALVIN ABC→D (平均任务数)
Octo 75.1% 51.1%
OpenVLA 76.5% 53.7%
CoT-VLA 81.1% 69.0%
π₀ 94.2% 85.2% 3.87
π₀.5 96.9% 92.4% 4.02
AtomicVLA 96.6% 95.2% 4.09
AtomicVLA* 97.8% 96.2% 4.27

真实 Franka 长程任务

方法 Objects in Plate Into Drawer Into Microwave Avg
π₀ 45% 55% 10% 36.7%
π₀.5 65% 35% 35% 45.0%
AtomicVLA* 75% 60% 55% 63.3%

持续学习

方法 原有4任务 Avg变化 新技能(Open) 5任务总 Avg
π₀.5 (持续学习) -15.0% 55% 61.0%
AtomicVLA* (持续学习) -1.3% 70% 82.0%

消融实验(LIBERO-LONG)

配置 成功率
π₀ (no MoE) 85.2%
+ 标准 MoE 88.6%
+ MoDE (去噪时步路由) 89.5%
+ SG-MoE (技能引导路由) 95.2%

关键发现

  • LIBERO-LONG 上提升最显著(10%):原子技能分解对长程多步任务效果最大,短任务提升有限(因为短任务不需要技能切换)
  • 持续学习几乎无遗忘:π₀.5 学新技能后旧任务平均降 15%(Stack 降 20%),AtomicVLA* 仅降 1.3%,同时新技能学得更快(70% vs 55%)
  • 混合训练技能干扰得到缓解:可视化显示 π₀.5 混合训练时开抽屉的"不闭合 gripper"行为会干扰其他抓取任务,SG-MoE 通过专家隔离解决了这个问题
  • SG-MoE vs 标准 MoE:标准 token 级 MoE 仅提升 3.4%(88.6% vs 85.2%),SG-MoE 提升 10%(95.2% vs 85.2%),说明技能引导的路由比随机 token 级路由有效得多
  • 错误恢复能力:AtomicVLA 在检测到技能执行失败时能自动重新评估并重试,虽然 CALVIN 评估不计入恢复后的成功

亮点与洞察

  • MoE→技能模块化的范式重新解读很有洞察力:不把专家当作可互换的计算单元,而是语义化的可复用技能原语,让 MoE 天然支持持续学习
  • 噪声调度编码作为技能路由信号:巧妙复用 diffusion/flow matching 中的噪声调度机制,用连续标量 \(\sigma \in [0,100]\) 映射到固定高维 embedding,确保同一技能始终路由到同一专家
  • 主轴分析的数据自动标注:比纯 VLM 视频理解更可靠(物理特征驱动),且几乎不需要手动后处理

局限性 / 可改进方向

  • 技能数量受限:实验中最多 8 个专家(CALVIN),真实场景可能需要几十到上百种原子技能,路由器的可扩展性上限未测试
  • 原子技能定义的泛化性:当前的主轴分析+InternVideo 标注流程对新环境/新机器人的适配性未验证
  • 实物实验规模有限:550 条轨迹和 5 种短任务对验证持续学习来说偏少
  • 混合任务干扰的根因分析不够深:观察到 gripper 干扰现象但没有量化分析不同任务组合的干扰程度

相关工作与启发

  • vs π₀/π₀.5: 直接在其基础上扩展,保留了强大的预训练基础模型能力,通过 SG-MoE 添加技能结构化能力。LIBERO 短任务上差距不大,LIBERO-LONG 和持续学习上优势明显
  • vs CoT-VLA: CoT-VLA 也做推理链但缺乏技能模块化,LIBERO-LONG 仅 69%(vs AtomicVLA 的 95.2%)
  • vs MoDE: MoDE 用去噪时步 t 做路由,本质是计算调度而非技能调度。SG-MoE 用语义化技能抽象路由,在 LIBERO-LONG 上多 5.7%

评分

  • 新颖性: ⭐⭐⭐⭐ Think-Act 统一 + SG-MoE 技能库 + 持续学习的整体设计有创新性,但各组件技术不全新
  • 实验充分度: ⭐⭐⭐⭐ LIBERO + CALVIN + 真实 Franka + 完整消融 + 持续学习实验,覆盖面好
  • 写作质量: ⭐⭐⭐⭐ 架构图和推理示例可视化清晰,Algorithm 1 简洁描述推理流程
  • 价值: ⭐⭐⭐⭐ 为 VLA 模型的可扩展持续学习提供了实用方案,SG-MoE 范式有推广潜力