AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶

日期: 2026-03-08
arXiv: 2603.07648
代码: 有（项目页）
领域: 机器人
关键词: VLA model, atomic skill, mixture-of-experts, continual learning, robotic manipulation

一句话总结¶

提出 AtomicVLA，统一任务规划与动作执行的端到端框架——VLM 自适应切换 Thinking（生成任务链+原子技能抽象）和 Acting（SG-MoE 动态路由到对应技能专家生成动作）模式，通过模块化技能库支持新技能持续学习无灾难性遗忘，在 LIBERO-LONG 上超越 π₀ 10%，真实 Franka 上持续学习提升 21%。

研究背景与动机¶

领域现状: VLA 模型（π₀, OpenVLA, SpatialVLA 等）将视觉、语言、动作统一到单一框架，在机器人操作上取得显著进展。但面临三个部署瓶颈：长程任务规划、技能扩展和灾难性遗忘。
现有痛点: (a) 长程任务——两阶段方案（VLM 规划器 + VLA 控制器）存在规划-执行解耦导致的协调失调和系统延迟下的过时指令；单一动作解码器的端到端方案缺乏结构化任务分解。(b) 技能扩展——单一解码器增量学习新技能需要重新训练，计算成本高且数据稀缺。(c) 灾难性遗忘——混合训练异质任务时技能间相互干扰（如开抽屉不需要闭合 gripper 但会影响其他抓取任务的 gripper 行为）。
核心矛盾: 需要同时支持"高层推理+细粒度执行"和"可扩展的持续学习"，但现有 VLA 的单一单体解码器在两方面都受限。
切入角度: 把 MoE 范式重新解读为"技能模块化"——每个专家对应一个语义化的、可复用的原子技能原语。通过 Think-Act 统一架构做端到端的任务规划和技能分解，通过模块化专家库实现无遗忘的技能扩展。

方法详解¶

整体框架¶

AtomicVLA 基于 π₀ VLA 基础模型扩展。输入当前多相机观测 \(O_t^{1:n}\) 和语言指令 \(\ell\) → 模型预测标识符 [think] 或 [act]： - [think] 模式（任务初始化或子技能切换时）：生成任务链 \(C_{0-k}\)（高层计划）+ 当前进度 \(C_t\) + 原子技能抽象 \(\sigma\) - [act] 模式（执行阶段）：基于最近一次 \(\sigma\) 通过 SG-MoE 路由到对应技能专家，输出动作 chunk \(A_t\)

关键设计¶

自适应 Think-Act 切换:
- 做什么：在同一模型内统一任务规划和动作执行，自动决定何时"思考"何时"执行"
- 核心思路：引入 [think] 和 [act] 两种特殊输出 token。模型基于当前视觉观测预测需要哪种模式——关键时步（任务开始/子技能切换）触发 thinking 生成计划和技能抽象，其余时步执行 acting 生成动作
- 设计动机：比两阶段方案更紧密耦合（规划和执行共享同一表示空间），比纯动作输出方案有结构化的推理能力
Skill-Guided MoE (SG-MoE):
- 做什么：构建可扩展的原子技能库，每个专家专精一种原子技能
- 核心思路：包含技能路由器、共享专家（保留 π₀ 的通用动作生成能力）和 K 个技能专家。原子技能抽象 \(\sigma\) 通过噪声调度风格编码映射到高维向量 \(Z_\sigma = E(\text{norm}(\log(\sigma)))\)，路由器计算专家分数 \(w_k = \text{Router}(Z_\sigma)\)，稀疏激活 top-1 专家，最终输出 \(F_{out} = (1-w_k) \cdot F_{share}(x_t) + w_k \cdot F_k(x_t)\)
- 设计动机：与标准 MoE（token 级独立路由）不同，SG-MoE 用语义化的技能抽象来引导路由，确保同一技能始终激活同一专家。共享专家保留 π₀ 的泛化能力，技能专家提供精确执行
持续学习的技能扩展:
- 做什么：新增原子技能时只训练新专家+扩展路由器，旧专家冻结
- 核心思路：新技能映射到新的固定嵌入 \(Z_{\sigma_{new}}\)，添加新专家模块到现有架构，路由器用旧权重初始化+新分支小随机值初始化，只需少量微调
- 设计动机：模块化设计天然支持增量扩展，避免全模型重训和灾难性遗忘
基于主轴分析的数据生成 Pipeline:
- 做什么：自动将连续轨迹分解为原子技能片段并标注语义
- 核心思路：分析末端执行器轨迹的主运动方向——比较平移/旋转分量大小 + 监控 gripper 状态变化 → 粗粒度分割。例如 z 坐标持续下降+gripper 关闭→"pick"，有限平移+显著旋转+gripper 关闭→"turn"。再用 InternVideo2.5 验证和丰富分割结果
- 设计动机：避免了纯 VLM/光流方法的歧义和手动后处理，物理特征驱动的分解更准确且自动化程度更高

损失函数 / 训练策略¶

基于 π₀ 和 π₀.5 预训练模型，保留其 flow matching 动作生成范式
LIBERO/CALVIN 实验分别用 5/8 个技能专家
真实机器人实验用 5 种短任务（每种 50 条轨迹）+ 3 种长程任务（每种 100 条轨迹），共 550 条

实验关键数据¶

主实验¶

方法	LIBERO Avg	LIBERO-LONG	CALVIN ABC→D (平均任务数)
Octo	75.1%	51.1%	–
OpenVLA	76.5%	53.7%	–
CoT-VLA	81.1%	69.0%	–
π₀	94.2%	85.2%	3.87
π₀.5	96.9%	92.4%	4.02
AtomicVLA	96.6%	95.2%	4.09
AtomicVLA*	97.8%	96.2%	4.27

真实 Franka 长程任务¶

方法	Objects in Plate	Into Drawer	Into Microwave	Avg
π₀	45%	55%	10%	36.7%
π₀.5	65%	35%	35%	45.0%
AtomicVLA*	75%	60%	55%	63.3%

持续学习¶

方法	原有4任务 Avg变化	新技能(Open)	5任务总 Avg
π₀.5 (持续学习)	-15.0%	55%	61.0%
AtomicVLA* (持续学习)	-1.3%	70%	82.0%

消融实验（LIBERO-LONG）¶

配置	成功率
π₀ (no MoE)	85.2%
+ 标准 MoE	88.6%
+ MoDE (去噪时步路由)	89.5%
+ SG-MoE (技能引导路由)	95.2%

关键发现¶

LIBERO-LONG 上提升最显著（10%）：原子技能分解对长程多步任务效果最大，短任务提升有限（因为短任务不需要技能切换）
持续学习几乎无遗忘：π₀.5 学新技能后旧任务平均降 15%（Stack 降 20%），AtomicVLA* 仅降 1.3%，同时新技能学得更快（70% vs 55%）
混合训练技能干扰得到缓解：可视化显示 π₀.5 混合训练时开抽屉的"不闭合 gripper"行为会干扰其他抓取任务，SG-MoE 通过专家隔离解决了这个问题
SG-MoE vs 标准 MoE：标准 token 级 MoE 仅提升 3.4%（88.6% vs 85.2%），SG-MoE 提升 10%（95.2% vs 85.2%），说明技能引导的路由比随机 token 级路由有效得多
错误恢复能力：AtomicVLA 在检测到技能执行失败时能自动重新评估并重试，虽然 CALVIN 评估不计入恢复后的成功

亮点与洞察¶

MoE→技能模块化的范式重新解读很有洞察力：不把专家当作可互换的计算单元，而是语义化的可复用技能原语，让 MoE 天然支持持续学习
噪声调度编码作为技能路由信号：巧妙复用 diffusion/flow matching 中的噪声调度机制，用连续标量 \(\sigma \in [0,100]\) 映射到固定高维 embedding，确保同一技能始终路由到同一专家
主轴分析的数据自动标注：比纯 VLM 视频理解更可靠（物理特征驱动），且几乎不需要手动后处理

局限性 / 可改进方向¶

技能数量受限：实验中最多 8 个专家（CALVIN），真实场景可能需要几十到上百种原子技能，路由器的可扩展性上限未测试
原子技能定义的泛化性：当前的主轴分析+InternVideo 标注流程对新环境/新机器人的适配性未验证
实物实验规模有限：550 条轨迹和 5 种短任务对验证持续学习来说偏少
混合任务干扰的根因分析不够深：观察到 gripper 干扰现象但没有量化分析不同任务组合的干扰程度

评分¶

新颖性: ⭐⭐⭐⭐ Think-Act 统一 + SG-MoE 技能库 + 持续学习的整体设计有创新性，但各组件技术不全新
实验充分度: ⭐⭐⭐⭐ LIBERO + CALVIN + 真实 Franka + 完整消融 + 持续学习实验，覆盖面好
写作质量: ⭐⭐⭐⭐ 架构图和推理示例可视化清晰，Algorithm 1 简洁描述推理流程
价值: ⭐⭐⭐⭐ 为 VLA 模型的可扩展持续学习提供了实用方案，SG-MoE 范式有推广潜力