AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶

会议: CVPR 2026
arXiv: 2603.07648
代码: 待确认
领域: 机器人操作 / 视觉-语言-动作模型
关键词: [VLA, 原子技能, Mixture-of-Experts, 持续学习, 任务规划, 技能路由]

一句话总结¶

提出AtomicVLA，统一任务规划(thinking)和动作执行(acting)，通过自适应[think]/[act]切换、技能引导MoE(SG-MoE)和可扩展持续学习机制，在LIBERO-LONG上超越π₀达10%，真实Franka长任务+18.3%，实现高效的原子技能分解与持续获取。

背景与动机¶

VLA模型（如π₀、OpenVLA）在机器人操作取得显著进展，但面临两个根本性瓶颈：

多步长任务推理不足：现有VLA直接从观测映射到动作，缺乏显式的任务分解和进度感知能力。面对"先打开抽屉，再拿出杯子，最后关上抽屉"这类多步长任务时，模型容易在中间步骤迷失、跳步或重复执行。
持续技能获取困难：当需要学习新技能时，现有模型要么全量微调导致灾难性遗忘（旧技能性能骤降），要么需要重新训练整个模型，计算代价高昂。

根本原因在于：现有VLA将所有技能的知识混合在同一组参数中，既没有显式的技能抽象层，也没有模块化的知识存储机制。

核心问题¶

如何让VLA模型 (1) 在执行前进行显式任务规划并追踪执行进度，(2) 将复杂任务分解为可复用的原子技能，(3) 在不遗忘已有技能的前提下持续获取新技能？

方法详解¶

整体框架¶

AtomicVLA在π₀基础架构上构建，统一thinking和acting两种模式：输入视觉观测V_t + 语言指令L → 自适应预测[think]或[act] token → [think]触发任务链生成和原子技能抽象 → [act]触发动作chunk生成，由SG-MoE基于技能嵌入路由到专精expert执行。

关键设计¶

自适应Think-Act切换（Sec 3.1）: 模型在每个决策步自适应预测特殊token [think]或[act]。当预测[think]时，生成三部分输出：(a) 完整任务链C_{0→k}——将语言指令分解为有序子目标序列；(b) 当前进度标识C_t——指示已完成到第几步；(c) 原子技能抽象σ——将当前子目标进一步抽象为一个原子技能标签（如"grasp"、"push"、"rotate"）。当预测[act]时，直接输出动作chunk用于控制。这种设计让模型具备"先想后做"的能力，同时避免每步都做规划的计算浪费——只在需要时think。
技能引导MoE（SG-MoE, Sec 3.2）: 替换π₀中的标准FFN为MoE结构：
共享expert：保留π₀预训练的通用知识，所有token都经过此expert
多个原子技能expert：每个expert专精一种原子技能（如grasp expert、push expert），通过训练自然分化
Skill router：关键创新——不使用传统的token嵌入路由，而是基于原子技能标签σ构建噪声调度式嵌入Z_σ = E(norm(log(σ)))，然后路由到top-1技能expert。这里E是可学习的嵌入层，norm和log是归一化操作，灵感来自扩散模型的噪声调度。这种设计使router对离散技能标签敏感而非对连续token特征敏感，确保同一技能的所有动作都由同一expert处理
持续学习机制（Sec 3.3）: 当需要学习新技能时：
新增一个技能expert，随机初始化
扩展skill router的嵌入空间以覆盖新技能标签
冻结所有已有expert的参数——只训练新expert和更新后的router
共享expert始终冻结，保持基础能力不退化
这种"只加不改"的策略从架构层面避免了灾难性遗忘
高质量Embodied Reasoning数据生成（Sec 3.4）: 训练数据构建流程：
对原始机器人演示视频做主轴动作分析（PCA-based），自动分割为原子技能片段
用InternVideo2.5对每个片段生成"thinking"标注——包括任务链、进度和技能抽象
最终数据格式：(观测, 语言指令, [think], 任务链, 进度, 技能标签, [act], 动作chunk)

损失函数 / 训练策略¶

Think模式：交叉熵损失，预测任务链、进度和技能标签的token序列
Act模式：Flow matching损失（继承π₀），预测连续动作chunk
总损失：L_total = L_think + L_act
两阶段训练：先在多任务数据上联合训练所有expert → 持续学习阶段冻结旧expert、训练新expert

实验关键数据¶

数据集	指标	AtomicVLA	π₀	π₀.5	提升(vs π₀)
LIBERO-Spatial	成功率	96.8%	96.0%	—	+0.8
LIBERO-Object	成功率	98.0%	96.5%	—	+1.5
LIBERO-Goal	成功率	94.4%	91.3%	—	+3.1
LIBERO-Long	成功率	82.6%	72.6%	—	+10.0
LIBERO-Avg	成功率	93.0%	89.1%	90.6%	+2.4
CALVIN (ABC→D)	Avg Len	3.62	3.40	3.37	+0.22
CALVIN (ABCD→D)	Avg Len	3.72	—	3.47	+0.25
真实Franka长任务	成功率	78.3%	60.0%	—	+18.3%
持续学习(新技能)	成功率	81.0%	60.0%*	—	+21.0%

消融实验要点¶

移除Think模块：LIBERO-Long从82.6%降至74.2%，长序列任务最依赖显式规划
移除SG-MoE换为标准FFN：LIBERO-Avg从93.0%降至89.8%，技能专精化是关键
Skill router替换为标准token router：性能降至90.5%，证明噪声调度式技能嵌入优于通用路由
持续学习对比：全量微调新技能后旧技能成功率下降15%+，AtomicVLA旧技能保持不变

亮点¶

Think-Act统一范式新颖：不是简单的chain-of-thought，而是与原子技能抽象深度耦合的规划-执行统一框架
SG-MoE的噪声调度式路由：借鉴扩散模型的思路做技能路由，设计巧妙且有效
持续学习从架构层面解决遗忘：不依赖正则化或回放缓冲区，而是通过冻结+扩展的模块化设计
LIBERO-Long大幅领先：+10%的提升说明显式规划对多步长任务确实至关重要
真实机器人验证充分：Franka上长任务+18.3%，持续学习+21%，不只是仿真刷点

局限性 / 可改进方向¶

原子技能标签依赖InternVideo2.5生成，标签质量受限于VLM能力——对罕见或高度专业化的操作可能标注不准
SG-MoE的top-1路由意味着每个动作只由一个技能expert处理——某些需要多技能协同的动作（如"边推边转"）可能需要top-k路由
持续学习每加一个新技能就新增一个expert，长期来看参数量线性增长——需要expert合并或剪枝策略
CALVIN上的提升（+0.22 avg len）相对LIBERO较小，可能因CALVIN任务粒度与原子技能的对齐不够紧密

与相关工作的对比¶

vs π₀ / π₀.5 (纯动作预测): π₀用flow matching直接预测动作，没有显式规划。AtomicVLA在其基础上增加thinking模块和技能路由，LIBERO-Long +10%证明规划的价值
vs SayCan / Inner Monologue (LLM规划+底层策略): 这类方法用外部LLM做高层规划，规划和执行分离。AtomicVLA将规划和执行统一在同一模型中，避免了模态gap和延迟问题
vs MergeVLA (模型合并): MergeVLA通过合并多个专精模型获取跨技能能力，但合并过程可能损失精度。AtomicVLA用MoE保持各技能expert独立，避免知识冲突
vs RehearseVLA (世界模型后训练): RehearseVLA用世界模型做RL后训练增强少样本能力。两者互补——AtomicVLA的技能抽象可以为RehearseVLA提供更好的状态表示

启发与关联¶

MoE技能路由的通用性：噪声调度式嵌入路由不仅适用于机器人技能，也可用于多任务NLP——将不同NLP任务映射到不同expert，用任务描述的嵌入做路由
持续学习的模块化范式：冻结旧expert+新增新expert的思路可以迁移到视觉大模型的持续预训练——每个新域训一个domain expert
Think-Act交替：这种自适应决定"该想还是该做"的机制可以应用到自动驾驶场景——简单路段直接act，复杂交叉路口先think再act

评分¶

新颖性: ⭐⭐⭐⭐⭐ Think-Act统一 + SG-MoE + 模块化持续学习，三大贡献均有创新性
实验充分度: ⭐⭐⭐⭐ LIBERO四子集 + CALVIN + 真实Franka实验 + 完整消融，持续学习验证有力
写作质量: ⭐⭐⭐⭐ 动机→方法→实验逻辑清晰，SG-MoE图示直观
价值: ⭐⭐⭐⭐⭐ 对VLA持续学习和多步规划有重要贡献，实用性强