AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶
日期: 2026-03-08
arXiv: 2603.07648
代码: 有(项目页)
领域: 机器人
关键词: VLA model, atomic skill, mixture-of-experts, continual learning, robotic manipulation
一句话总结¶
提出 AtomicVLA,统一任务规划与动作执行的端到端框架——VLM 自适应切换 Thinking(生成任务链+原子技能抽象)和 Acting(SG-MoE 动态路由到对应技能专家生成动作)模式,通过模块化技能库支持新技能持续学习无灾难性遗忘,在 LIBERO-LONG 上超越 π₀ 10%,真实 Franka 上持续学习提升 21%。
研究背景与动机¶
- 领域现状: VLA 模型(π₀, OpenVLA, SpatialVLA 等)将视觉、语言、动作统一到单一框架,在机器人操作上取得显著进展。但面临三个部署瓶颈:长程任务规划、技能扩展和灾难性遗忘。
- 现有痛点: (a) 长程任务——两阶段方案(VLM 规划器 + VLA 控制器)存在规划-执行解耦导致的协调失调和系统延迟下的过时指令;单一动作解码器的端到端方案缺乏结构化任务分解。(b) 技能扩展——单一解码器增量学习新技能需要重新训练,计算成本高且数据稀缺。(c) 灾难性遗忘——混合训练异质任务时技能间相互干扰(如开抽屉不需要闭合 gripper 但会影响其他抓取任务的 gripper 行为)。
- 核心矛盾: 需要同时支持"高层推理+细粒度执行"和"可扩展的持续学习",但现有 VLA 的单一单体解码器在两方面都受限。
- 切入角度: 把 MoE 范式重新解读为"技能模块化"——每个专家对应一个语义化的、可复用的原子技能原语。通过 Think-Act 统一架构做端到端的任务规划和技能分解,通过模块化专家库实现无遗忘的技能扩展。
方法详解¶
整体框架¶
AtomicVLA 基于 π₀ VLA 基础模型扩展。输入当前多相机观测 \(O_t^{1:n}\) 和语言指令 \(\ell\) → 模型预测标识符 [think] 或 [act]: - [think] 模式(任务初始化或子技能切换时):生成任务链 \(C_{0-k}\)(高层计划)+ 当前进度 \(C_t\) + 原子技能抽象 \(\sigma\) - [act] 模式(执行阶段):基于最近一次 \(\sigma\) 通过 SG-MoE 路由到对应技能专家,输出动作 chunk \(A_t\)
关键设计¶
-
自适应 Think-Act 切换:
- 做什么:在同一模型内统一任务规划和动作执行,自动决定何时"思考"何时"执行"
- 核心思路:引入 [think] 和 [act] 两种特殊输出 token。模型基于当前视觉观测预测需要哪种模式——关键时步(任务开始/子技能切换)触发 thinking 生成计划和技能抽象,其余时步执行 acting 生成动作
- 设计动机:比两阶段方案更紧密耦合(规划和执行共享同一表示空间),比纯动作输出方案有结构化的推理能力
-
Skill-Guided MoE (SG-MoE):
- 做什么:构建可扩展的原子技能库,每个专家专精一种原子技能
- 核心思路:包含技能路由器、共享专家(保留 π₀ 的通用动作生成能力)和 K 个技能专家。原子技能抽象 \(\sigma\) 通过噪声调度风格编码映射到高维向量 \(Z_\sigma = E(\text{norm}(\log(\sigma)))\),路由器计算专家分数 \(w_k = \text{Router}(Z_\sigma)\),稀疏激活 top-1 专家,最终输出 \(F_{out} = (1-w_k) \cdot F_{share}(x_t) + w_k \cdot F_k(x_t)\)
- 设计动机:与标准 MoE(token 级独立路由)不同,SG-MoE 用语义化的技能抽象来引导路由,确保同一技能始终激活同一专家。共享专家保留 π₀ 的泛化能力,技能专家提供精确执行
-
持续学习的技能扩展:
- 做什么:新增原子技能时只训练新专家+扩展路由器,旧专家冻结
- 核心思路:新技能映射到新的固定嵌入 \(Z_{\sigma_{new}}\),添加新专家模块到现有架构,路由器用旧权重初始化+新分支小随机值初始化,只需少量微调
- 设计动机:模块化设计天然支持增量扩展,避免全模型重训和灾难性遗忘
-
基于主轴分析的数据生成 Pipeline:
- 做什么:自动将连续轨迹分解为原子技能片段并标注语义
- 核心思路:分析末端执行器轨迹的主运动方向——比较平移/旋转分量大小 + 监控 gripper 状态变化 → 粗粒度分割。例如 z 坐标持续下降+gripper 关闭→"pick",有限平移+显著旋转+gripper 关闭→"turn"。再用 InternVideo2.5 验证和丰富分割结果
- 设计动机:避免了纯 VLM/光流方法的歧义和手动后处理,物理特征驱动的分解更准确且自动化程度更高
损失函数 / 训练策略¶
- 基于 π₀ 和 π₀.5 预训练模型,保留其 flow matching 动作生成范式
- LIBERO/CALVIN 实验分别用 5/8 个技能专家
- 真实机器人实验用 5 种短任务(每种 50 条轨迹)+ 3 种长程任务(每种 100 条轨迹),共 550 条
实验关键数据¶
主实验¶
| 方法 | LIBERO Avg | LIBERO-LONG | CALVIN ABC→D (平均任务数) |
|---|---|---|---|
| Octo | 75.1% | 51.1% | – |
| OpenVLA | 76.5% | 53.7% | – |
| CoT-VLA | 81.1% | 69.0% | – |
| π₀ | 94.2% | 85.2% | 3.87 |
| π₀.5 | 96.9% | 92.4% | 4.02 |
| AtomicVLA | 96.6% | 95.2% | 4.09 |
| AtomicVLA* | 97.8% | 96.2% | 4.27 |
真实 Franka 长程任务¶
| 方法 | Objects in Plate | Into Drawer | Into Microwave | Avg |
|---|---|---|---|---|
| π₀ | 45% | 55% | 10% | 36.7% |
| π₀.5 | 65% | 35% | 35% | 45.0% |
| AtomicVLA* | 75% | 60% | 55% | 63.3% |
持续学习¶
| 方法 | 原有4任务 Avg变化 | 新技能(Open) | 5任务总 Avg |
|---|---|---|---|
| π₀.5 (持续学习) | -15.0% | 55% | 61.0% |
| AtomicVLA* (持续学习) | -1.3% | 70% | 82.0% |
消融实验(LIBERO-LONG)¶
| 配置 | 成功率 |
|---|---|
| π₀ (no MoE) | 85.2% |
| + 标准 MoE | 88.6% |
| + MoDE (去噪时步路由) | 89.5% |
| + SG-MoE (技能引导路由) | 95.2% |
关键发现¶
- LIBERO-LONG 上提升最显著(10%):原子技能分解对长程多步任务效果最大,短任务提升有限(因为短任务不需要技能切换)
- 持续学习几乎无遗忘:π₀.5 学新技能后旧任务平均降 15%(Stack 降 20%),AtomicVLA* 仅降 1.3%,同时新技能学得更快(70% vs 55%)
- 混合训练技能干扰得到缓解:可视化显示 π₀.5 混合训练时开抽屉的"不闭合 gripper"行为会干扰其他抓取任务,SG-MoE 通过专家隔离解决了这个问题
- SG-MoE vs 标准 MoE:标准 token 级 MoE 仅提升 3.4%(88.6% vs 85.2%),SG-MoE 提升 10%(95.2% vs 85.2%),说明技能引导的路由比随机 token 级路由有效得多
- 错误恢复能力:AtomicVLA 在检测到技能执行失败时能自动重新评估并重试,虽然 CALVIN 评估不计入恢复后的成功
亮点与洞察¶
- MoE→技能模块化的范式重新解读很有洞察力:不把专家当作可互换的计算单元,而是语义化的可复用技能原语,让 MoE 天然支持持续学习
- 噪声调度编码作为技能路由信号:巧妙复用 diffusion/flow matching 中的噪声调度机制,用连续标量 \(\sigma \in [0,100]\) 映射到固定高维 embedding,确保同一技能始终路由到同一专家
- 主轴分析的数据自动标注:比纯 VLM 视频理解更可靠(物理特征驱动),且几乎不需要手动后处理
局限性 / 可改进方向¶
- 技能数量受限:实验中最多 8 个专家(CALVIN),真实场景可能需要几十到上百种原子技能,路由器的可扩展性上限未测试
- 原子技能定义的泛化性:当前的主轴分析+InternVideo 标注流程对新环境/新机器人的适配性未验证
- 实物实验规模有限:550 条轨迹和 5 种短任务对验证持续学习来说偏少
- 混合任务干扰的根因分析不够深:观察到 gripper 干扰现象但没有量化分析不同任务组合的干扰程度
相关工作与启发¶
- vs π₀/π₀.5: 直接在其基础上扩展,保留了强大的预训练基础模型能力,通过 SG-MoE 添加技能结构化能力。LIBERO 短任务上差距不大,LIBERO-LONG 和持续学习上优势明显
- vs CoT-VLA: CoT-VLA 也做推理链但缺乏技能模块化,LIBERO-LONG 仅 69%(vs AtomicVLA 的 95.2%)
- vs MoDE: MoDE 用去噪时步 t 做路由,本质是计算调度而非技能调度。SG-MoE 用语义化技能抽象路由,在 LIBERO-LONG 上多 5.7%
评分¶
- 新颖性: ⭐⭐⭐⭐ Think-Act 统一 + SG-MoE 技能库 + 持续学习的整体设计有创新性,但各组件技术不全新
- 实验充分度: ⭐⭐⭐⭐ LIBERO + CALVIN + 真实 Franka + 完整消融 + 持续学习实验,覆盖面好
- 写作质量: ⭐⭐⭐⭐ 架构图和推理示例可视化清晰,Algorithm 1 简洁描述推理流程
- 价值: ⭐⭐⭐⭐ 为 VLA 模型的可扩展持续学习提供了实用方案,SG-MoE 范式有推广潜力