AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶

会议: CVPR 2026
arXiv: 2603.07648
代码: https://zhanglk9.github.io/atomicvla-web/ (有)
领域: 机器人/具身智能
关键词: VLA, 原子技能, 混合专家, 持续学习, 长时任务规划

一句话总结¶

AtomicVLA 提出统一规划-执行框架，通过Think-Act自适应切换生成任务链和原子技能抽象，用技能引导MoE（SG-MoE）构建可扩展的原子技能专家库，在LIBERO-LONG上超π₀ 10%，真实世界持续学习超基线21%且遗忘仅1.3%。

背景与动机¶

现有VLA模型用单一动作解码器训练在混合数据上，面临两大问题：（1）长时horizon任务需要任务分解+规划能力，但模块化解耦（VLM规划器+VLA控制器）导致上下游不同步；（2）单解码器混合训练时不同技能相互干扰，增量学习新技能导致灾难性遗忘。核心挑战是：如何在统一框架中实现任务规划、精确执行和可扩展的持续技能学习？

核心问题¶

如何构建一个端到端的VLA框架，既能自适应地做高层任务规划和原子技能分解，又能通过模块化专家库实现高效的多技能学习和无遗忘的持续扩展？

方法详解¶

整体框架¶

基于π₀/π₀.5构建。模型在每个时间步自适应预测[think]或[act]标识符。[think]模式下生成任务链\(C_{0-k}\)、当前进度\(C_t\)和原子技能抽象\(\sigma\)（如pick/place/open等）；[act]模式下根据最新\(\sigma\)激活对应技能专家生成动作chunk。SG-MoE动作解码器由共享专家（保留π₀通用能力）+多个原子技能专家组成。

关键设计¶

统一Think-Act架构: 不是外部VLM+VLA的两段式，而是单一VLM自适应决定是做规划还是执行。在任务初始或子技能切换时触发Think输出任务链+原子技能抽象，其余时间Act直接生成动作。关键优势：规划和执行共享同一表征空间，避免模块间信息损失。
技能引导MoE（SG-MoE）: 每个原子技能\(\sigma\)被映射到固定的高维嵌入向量\(Z_\sigma\)（借鉴扩散模型的噪声调度编码），路由器根据\(Z_\sigma\)选择top-1技能专家。输出为共享专家和选中专家的加权组合：\(F_{\text{out}} = (1-w_k) \cdot F_{\text{share}}(x_t) + w_k \cdot F_k(x_t)\)。与标准MoE的区别：不是token级路由，而是技能级路由——同一技能阶段所有token都走同一专家，确保技能内一致性。消融显示SG-MoE（95.2%）远优于标准MoE（88.6%）和时间步MoDE（89.5%）。
持续学习技能扩展: 新技能引入时，只需添加新专家+扩展路由器（从原路由器权重初始化，新分支用小随机值），仅训练新专家和路由参数，已有专家完全冻结。实验显示π₀.5学新技能后旧技能平均掉15%（stack甚至掉20%），AtomicVLA*仅掉1.3%。

损失函数 / 训练策略¶

基于π₀的flow matching训练。原子技能标注通过主轴分析（PCA分析末端执行器轨迹的平移/旋转/夹爪状态变化）自动分割+InternVideo2.5验证。LIBERO用5个专家，CALVIN用8个。100K步训练（8×H200 GPU），真实世界30K步。

实验关键数据¶

基准	指标	AtomicVLA(*)	π₀ / π₀.5	提升
LIBERO-LONG	SR(%)	95.2	85.2 (π₀)	+10.0
LIBERO Avg	SR(%)	96.6/97.8	94.2 (π₀)	+2.4
CALVIN ABC-D	Avg Len	4.09/4.27	3.87/4.02	+0.22/+0.25
真实·长horizon (3任务)	Avg SR(%)	56.7/63.3	36.7/45.0	+20/+18.3
真实·持续学习 (5任务)	Avg SR(%)	82	61 (π₀.5 CL)	+21
真实·遗忘度	ΔAvg(%)	-1.3	-15.0 (π₀.5)	显著改善

消融实验要点¶

SG-MoE vs 标准MoE vs MoDE vs 无MoE: 95.2% vs 88.6% vs 89.5% vs 85.2%（LIBERO-LONG）
技能级路由远优于token级/时间步级：确保同一技能执行的一致性
持续学习：π₀.5学新技能后stack掉20%，AtomicVLA*几乎不掉（甚至close从70→80%提升）
混合训练干扰：open drawer任务不需夹爪关合→干扰其他grasping任务，SG-MoE有效隔离
错误恢复：当子技能失败时能自动重规划重试

亮点¶

Think-Act统一框架解决了模块化方案的上下游脱节问题，自适应切换优雅实用
将MoE从通用routing重新诠释为"技能模块化"——每个专家对应一个语义明确的原子技能，可解释性强
持续学习方案极其简洁（加专家+扩路由器），遗忘仅1.3%（π₀.5的-15%对比鲜明）
主轴分析的原子技能自动标注管线减少了对人工标注的依赖
真实机器人上混合训练3个长horizon任务且一致超越π₀.5

局限性 / 可改进方向¶

依赖VLM的规划准确性——如果VLM给出错误的原子技能抽象，错误会传播到执行
新技能仍需收集大量演示数据做模仿学习，未探索RL或少样本学习
原子技能粒度固定（Pick/Place/Open等），更细粒度或更抽象的技能层级未探索
推理时Think模式约104ms + Act模式92ms（5专家），合计约200ms

与相关工作的对比¶

π₀/π₀.5: 统一VLA但单解码器，混合训练有技能干扰；AtomicVLA用SG-MoE隔离技能
MoDE: token级MoE去噪器，专家间无语义对应；AtomicVLA的技能级路由更有效（+5.7%）
Hi-Robot/OneTwoVLA等: 也做统一规划-执行，但无技能模块化设计导致持续学习困难
LOTUS等持续学习: 无监督技能发现但非VLA架构；AtomicVLA在VLA框架内实现可扩展的技能库

启发与关联¶

"原子技能"作为VLA的中间抽象层，可以和之前读的Fast-ThinkAct的"潜在推理"互补——一个用文本技能抽象，一个用连续潜在表征
技能级MoE路由的设计可以推广到多任务VLA的scaling研究

评分¶

新颖性: ⭐⭐⭐⭐⭐ Think-Act统一+技能级MoE+持续扩展的组合非常完整且原创
实验充分度: ⭐⭐⭐⭐⭐ LIBERO+CALVIN+真实Franka长horizon+持续学习+消融，覆盖全面
写作质量: ⭐⭐⭐⭐ 架构清晰，可视化丰富，技术细节充足
价值: ⭐⭐⭐⭐⭐ 为VLA的可扩展性和持续学习提供了实际解决方案