MolmoBot: Large-Scale Simulation Enables Zero-Shot Manipulation¶

日期: 2026-03-17
arXiv: 2603.16861
代码: allenai.org/blog/molmobot-robot-manipulation
领域: 机器人
关键词: 零样本sim-to-real, 大规模仿真, VLA策略, 流匹配动作头, 移动操作

一句话总结¶

通过 MolmoBot-Engine 生成 180 万仿真操作轨迹训练 VLA 策略，实现完全零样本 sim-to-real 迁移——在桌面抓取上 79.2% 成功率（π0.5 仅 39.2%），同时支持移动操作（开门/开抽屉/移动抓取），全部开源。

研究背景与动机¶

领域现状: 机器人基础模型（π0、GR00T、Gemini Robotics）依赖大规模真实世界数据训练，数据收集昂贵且不可复现。社区普遍认为"纯仿真不够，必须有真实数据弥合 sim-to-real 差距"。
现有痛点: (a) 最强的操作策略由少数工业实验室垄断——数据混合、训练配方不公开；(b) 仿真被视为"辅助"而非"充分"——大多数方法仍需真实数据微调；(c) 移动操作（开门、抽屉）几乎没有大规模仿真数据。
核心矛盾: 开源社区缺乏端到端构建操作策略的完整配方——不是缺模型架构，而是缺数据引擎。
切入角度: 挑战"仿真不够"的假设。当仿真规模足够大、多样性足够强时，零样本迁移不仅可能而且有效——关键不在真实感渲染，而在环境/物体/任务的多样性。
核心 idea: MolmoBot-Engine（全开源数据生成管线）+ MolmoBot-Data（180万轨迹）+ MolmoBot（Molmo2-VLM + DiT 流匹配动作头）。

方法详解¶

整体框架¶

三层架构： 1. MolmoBot-Engine: 基于 MolmoSpaces（23.2万环境+4.8万可操作物体）的程序化数据生成管线 2. MolmoBot-Data: 180万专家轨迹，覆盖铰接物体操作（开门/抽屉/柜子）和抓放任务 3. MolmoBot 策略: 三种策略类——MolmoBot（旗舰VLA）、MolmoBot-Pi0（π0复刻）、MolmoBot-SPOC（轻量边缘部署）

关键设计¶

数据引擎 (MolmoBot-Engine):
- 做什么：从 MolmoSpaces 程序化生成操作轨迹
- 核心特点：
- 环境多样性: 20万+预建场景，随机化光照/纹理/物理参数
- 物体多样性: Objaverse + iTHOR 物体，按尺寸和语义过滤
- 动作随机化: 专家动作注入按比例噪声（大动作多噪声，静止无噪声）
- 相机扰动: 位置、角度随机化模拟真实传感器不确定性
设计动机：多样性 > 真实感——论文明确指出"操作策略从多样性中获益大于从真实感渲染中获益"
VLA 架构 (MolmoBot):
- 做什么：从多帧视觉+语言指令生成连续动作
- 核心思路：基于 Molmo2 视频-语言模型 + DiT 流匹配动作头。关键创新：动作头的每一层通过交叉注意力连接 VLM 对应层的隐状态——层级耦合而非仅用最终特征
- 设计动机：层级耦合让动作生成可以利用 VLM 不同层次的多模态表示（浅层细节 + 深层语义）
双平台验证:
- Franka FR3: 7-DoF 桌面操作（抓放任务）
- Rainbow RB-Y1: 移动操作器（全向底盘 + 双臂 + 头部）——开门/抽屉/柜子/移动抓放
- 设计动机：证明方法不限于固定臂桌面场景

域随机化策略¶

光照：随机灯数/位置/强度/颜色/阴影
纹理：程序化纹理 + 真实纹理混合
动力学：摩擦/质量/关节阻尼在合理范围内采样
初始位姿：关节位置加梯度噪声（近端小、末端大，限制 TCP 位移 ~10cm）

实验关键数据¶

桌面抓放 (Franka FR3)¶

方法	真实数据	成功率
MolmoBot	0（纯仿真）	79.2%
MolmoBot-Pi0	0（纯仿真）	46.7%
π0.5	大量真实数据	39.2%

MolmoBot 零样本 79.2% > π0.5 39.2%（需要真实数据）——2× 差距。

架构控制实验¶

方法	架构	数据	成功率
MolmoBot	Molmo2-VLA	MolmoBot-Data	79.2%
MolmoBot-Pi0	π0 架构	MolmoBot-Data	46.7%
π0.5	π0 架构	真实数据	39.2%

同架构(π0)下，MolmoBot-Data (仿真) > π0.5-Data (真实)——证明是数据而非架构的优势。

关键发现¶

数据规模和多样性是关键：消融显示减少数据量/多样性→成功率显著下降
不需要真实感渲染：MuJoCo 渲染 + 域随机化就够了
层级耦合动作头 > 仅用最终特征：每层交叉注意力对性能有正贡献
移动操作零样本可行：开门、抽屉等铰接操作从仿真直接迁移到真实机器人

亮点与洞察¶

挑战"仿真不够"的范式假设：这是机器人学习领域最大的假设之一——论文用压倒性实验证明纯仿真零样本超越真实数据训练。这对整个领域有范式级影响。
全开源的端到端配方：数据引擎 + 数据集 + 模型权重 + 评估代码全部开源——任何人都可以从零复现。这是 Allen AI 一贯的开放风格（Molmo、OLMo）。
多样性 > 真实感的核心洞察：不需要 IsaacSim 级别的光照追踪——MuJoCo 的简单渲染 + 充分的域随机化就足以建立鲁棒转移。这大幅降低了仿真数据生成的门槛。
层级耦合动作头：DiT 的每层与 VLM 对应层交叉注意力——让动作表示融合了多尺度语义信息而非仅用最终池化特征。

局限性 / 可改进方向¶

仅支持刚体和铰接物体操作：不覆盖柔性物体（布料/绳子）和极度接触密集的任务
桌面场景评估受限：4 个场景可能不足以覆盖所有桌面操作变体
移动操作未与移动基线定量对比：RB-Y1 实验主要是定性展示
无语言泛化评估：未测试对全新语言指令（训练时未见的表述）的泛化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 挑战核心范式假设并用实验证明，全开源
实验充分度: ⭐⭐⭐⭐⭐ 双平台+架构控制实验+消融+与π0.5直接对比
写作质量: ⭐⭐⭐⭐ 清晰系统，数据引擎描述详尽
价值: ⭐⭐⭐⭐⭐ 对机器人学习社区有范式级影响，全开源降低了所有人的入门门槛