Do World Action Models Generalize Better than VLAs? A Robustness Study¶

日期: 2026-03-23
arXiv: 2603.22078
代码: 无
领域: 机器人 / 世界模型
关键词: world action model, VLA, robustness, visual perturbation, robot manipulation

一句话总结¶

系统对比 SOTA VLA 策略（π0.5、OpenVLA 等）和新兴的世界动作模型 WAM（Cosmos-Policy、LingBot-VA 等）在视觉/语言扰动下的鲁棒性，发现 WAM 凭借视频预训练获得的时空先验在噪声/光照/布局扰动下表现更好（LingBot-VA 74.2%、Cosmos-Policy 82.2%），但推理延迟高于 VLA 4.8 倍以上。

研究背景与动机¶

领域现状: VLA（Vision-Language-Action）模型通过将视觉-语言大模型适配到机器人动作生成，在多种任务上表现出色。WAM（World Action Models）则基于视频生成模型的潜表示解码动作，是新兴替代方案。
现有痛点: VLA 性能受训练数据范围限制，对未见场景泛化差，对视觉/语言扰动脆弱。WAM 声称视频预训练带来的时空先验使其泛化更好，但缺乏系统对比验证。
核心矛盾: VLM backbone 可能已隐式建模世界动力学，WAM 显式的动态预测是否真有必要？视频先验的优势在哪些扰动类型下体现？
切入角度: 在两个增强操作基准（LIBERO-Plus 单臂 + RoboTwin 2.0-Plus 双臂）上，系统评测多种视觉和语言扰动下的策略鲁棒性。
核心 idea: 通过受控扰动实验系统揭示 WAM vs VLA 的鲁棒性差异及其根源。

方法详解¶

评测框架¶

LIBERO-Plus: 7 种扰动类型的单臂操作任务
RoboTwin 2.0-Plus: 类似扰动协议的双臂 Aloha-Agilex 设置
扰动类型：噪声、光照变化、布局更改、背景干扰、语言改述等

评测模型¶

VLA 系列: π0.5、OpenVLA-OFT、X-VLA、SimpleVLA-RL WAM 系列: VPP (SVD-based)、Genie-Act (LTX-Video)、Cosmos-Policy (Cosmos-Predict2)、LingBot-VA (Wan2.2-5B)、DreamZero (Wan2.1-14B) 混合方法: MOTUS、VLA-JEPA（部分集成视频动态学习）

WAM 架构特征¶

基于视频扩散/flow matching 模型 backbone
轻量级动作头从潜表示解码 robot actions
支持自回归生成（LingBot-VA、DreamZero）或联合去噪（Cosmos-Policy）
参数量 1.5B-14B

实验关键数据¶

鲁棒性对比¶

模型	类型	RoboTwin 2.0-Plus	LIBERO-Plus
LingBot-VA	WAM	74.2%	-
Cosmos-Policy	WAM	-	82.2%
π0.5	VLA	可比但需更多数据	可比
MOTUS	混合	中等	中等

推理效率¶

模型	推理速度对比
WAM 最快	≥4.8× 慢于 π0.5
π0.5 (VLA)	baseline

关键发现¶

WAM 在噪声、光照、布局扰动下普遍更鲁棒——时空先验从视频预训练继承
π0.5 等 VLA 可达到可比鲁棒性，但需要精心策划的多样化数据集和多种学习目标
WAM 的优势在于 policy 训练阶段简单（无需大规模多任务 robot 数据预训练）
WAM 的劣势：推理开销大（≥4.8× 慢），限制实际部署
混合方法（部分集成视频先验）鲁棒性介于两者之间——视频先验的集成方式很重要
模型更大不一定更鲁棒，"thinking"模式不一定更安全

亮点与洞察¶

首个 WAM vs VLA 系统鲁棒性对比: 填补了两类范式在受控扰动下的对比空白
视频先验的价值明确化: WAM 的鲁棒性增益主要来自视频预训练的时空先验，而非架构本身
训练简单 vs 推理高效的 trade-off: WAM 训练简单但推理贵，VLA 训练数据需求大但推理快

局限性 / 可改进方向¶

仅在模拟环境测试，真实世界扰动（机械噪声、传感器退化）未覆盖
WAM 推理延迟问题未提出解决方案
扰动类型有限，未测试对抗性扰动
混合方法的最优集成策略尚不明确

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统对比研究，及时且有洞察
实验充分度: ⭐⭐⭐⭐ 两个基准多种扰动，覆盖 VLA/WAM/混合
写作质量: ⭐⭐⭐⭐ 分类清晰，相关工作全面
价值: ⭐⭐⭐⭐ 对 embodied AI 方向选择有重要参考