跳转至

World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training

会议: CVPR 2026
arXiv: 2509.24948
代码: github.com/amap-cvlab/world-env
领域: 机器人 / 具身智能
关键词: VLA后训练, 世界模型, 强化学习, 即时反射器, 少样本操作

一句话总结

提出 World-Env 框架,用物理一致的世界模型作为虚拟仿真器替代真实世界交互,结合 VLM 引导的即时反射器提供连续奖励和动态终止信号,实现 VLA 模型在仅 5 条示范轨迹下的安全高效 RL 后训练,平均成功率从 74.85% 提升至 79.6%。

研究背景与动机

领域现状:视觉-语言-动作 (VLA) 模型如 OpenVLA、π₀ 等通过模仿学习实现从语言指令到低级控制的端到端映射,在机器人操作领域展现出巨大潜力。然而模仿学习严重依赖大规模高质量示范数据。

现有痛点:(1) 数据稀缺——在真实场景中收集多样化安全的人类示范代价极高且常常不可行;(2) 真实世界 RL 面临不可重置环境的关键限制——工业自动化等高风险场景中,交互引起的状态变化难以逆转;(3) 传统仿真器的 sim-to-real gap 大,开发成本高,难以适应新物体和动态场景变化;(4) 现有 VLA 缺乏可靠的任务完成检测机制,导致成功后的冗余动作降低整体成功率。

核心矛盾:RL 后训练需要大量交互探索,但真实世界交互成本高且不可重置,传统仿真器又存在 sim-to-real gap。

本文目标:如何在不与真实世界交互的前提下,安全且高效地对 VLA 进行 RL 后训练。

切入角度:利用视频生成世界模型作为"理想试验场"——既避免真实风险,又比传统仿真器具有更好的语义理解和灵活性。

核心 idea:用世界模型替代物理环境进行 VLA 的 RL 后训练,同时通过 VLM 引导的反射器提供细粒度奖励和智能终止。

方法详解

整体框架

World-Env 包含两大组件和一个优化回路:(1) 物理一致世界仿真器:基于扩散模型生成动作条件下的未来视觉观测;(2) VLM 引导的即时反射器:评估预测视觉轨迹与语言指令的语义对齐度,提供连续奖励并预测终止时机。优化回路中,VLA 生成动作 → 仿真器预测下一观测 → 反射器评估并提供奖励 → RL 更新策略。

关键设计

  1. 物理一致世界仿真器:

    • 功能:给定当前观测和动作,预测物理一致的未来视觉观测
    • 动作条件注入:将预测动作通过正运动学转换为本体感受状态 \(\mathbf{s}_{t+1}\),投影到图像平面生成 action map(前景标记 + 黑色背景),作为像素级条件注入 U-Net 扩散网络
    • 几何感知特征注入:双路径跨注意力机制——(a) VGGT 特征保持参考图像的精细几何结构和空间布局;(b) CLIP 特征捕获高级语义和上下文信息。两种特征在多分辨率层通过跨注意力融合
    • 训练数据增强:仅用专家轨迹训练会限制对未见状态-动作序列的泛化。部署 SFT 后的 OpenVLA-OFT 在 LIBERO 仿真器中自主探索,引入 Laplace 分布扰动 \(\mathbf{a}_t \sim \text{Laplace}(\boldsymbol{\mu}_t, \boldsymbol{\beta}_t)\) 增加多样性
    • 设计动机:VGGT 的几何特征确保物理一致性(物体形状、空间关系),CLIP 的语义特征保证全局上下文连贯
  2. VLM 引导的即时反射器:

    • 功能:提供连续值奖励信号 \(R(\mathbf{o}_{1:t}, \mathbf{g}) \in [0,1]\) 并动态检测任务完成
    • 架构:冻结视觉编码器 \(\mathcal{E}_{vision}\) + 冻结 LLM \(\mathcal{E}_{LLM}\) + 轻量奖励头 \(\mathcal{R}_\theta\),计算 \(R = \sigma(\mathcal{R}_\theta(h_t))\)
    • 终止机制:当 \(R(\mathbf{o}_{1:t}, \mathbf{g}) > \eta\) (\(\eta = 0.5\)) 时触发终止
    • 训练:使用逐帧二值成功标签 \(y_t \in \{0,1\}\),BCE 损失训练奖励头
    • 关键优势 vs 二值奖励:先前方法使用稀疏二值奖励(1=成功,0=失败),当所有 rollout 全部成功或全部失败时,优势估计坍塌为零,无法提供学习信号。连续奖励确保非平凡的优势估计
    • 设计动机:解决 VLA 执行中的"成功后失败"问题——策略在完成任务后继续执行冗余动作(如放置物体后继续抓取),导致成功结果被破坏
  3. RLOO-PPO 策略优化:

    • 功能:基于世界模型 rollout 进行策略更新
    • Rollout 生成:VLA 策略 \(\pi_\theta\) 预测基础动作 \(\boldsymbol{\mu}_t\),scale head 输出 \(\boldsymbol{\beta}_t\),从 Laplace 分布采样执行动作
    • 优势估计:采用 RLOO(Leave-One-Out),对 \(N=8\) 条轨迹,轨迹 \(n\) 的基线为其余轨迹的平均奖励 \(b_n = \frac{1}{N-1}\sum_{j \neq n} R_j\)
    • 策略更新:PPO 剪切目标 \(\mathcal{L}_{PPO} = -\min(r_{t,n} A_n, \text{clip}(r_{t,n}, 1-\epsilon, 1+\epsilon) A_n)\)\(\epsilon=0.1\)
    • 稀疏奖励使用:RL 仅在终止时刻分配单个轨迹级奖励 \(R_n = R(\mathbf{o}_{1:t_{end}}, \mathbf{g})\)

损失函数 / 训练策略

  • VLA 基座:OpenVLA-OFT,使用 LoRA(rank 32)微调视觉-语言骨干
  • LoRA 学习率 \(1 \times 10^{-4}\),动作/scale head 学习率 \(1 \times 10^{-5}\)
  • 训练硬件:8×NVIDIA H20 GPU (96GB),总训练时间约 48 小时
  • 每任务仅 5 条专家示范轨迹
  • Batch size 4,每次迭代 \(N=8\) 条 rollout

实验关键数据

主实验 (LIBERO 基准, 5 条示范/任务)

方法 LIBERO-Goal LIBERO-Object LIBERO-Spatial LIBERO-Long Average
π₀ 67.6 68.4 80.2 28.2 61.1
OpenVLA 73.2 55.0 82.4 32.2 60.7
UniVLA 82.0 76.2 84.4 56.4 74.75
OpenVLA-OFT 84.0 74.2 84.2 57.0 74.85
Ours 86.4 86.6 87.6 57.8 79.6

消融实验

Extra Data Reward Head Goal Object Spatial Long
68.4 75.2 73.2 42.2
79.8 81.8 78.4 44.6
68.8 76.4 74.4 43.8
86.4 86.6 87.6 57.8

与仿真器 RL 方法对比:

方法 Goal Object Spatial Long
RIPT-VLA (仿真器RL) 86.2 83.4 88.6 58.4
Ours (世界模型RL) 86.4 86.6 87.6 57.8

关键发现

  • World-Env 仅用 5 条示范轨迹即实现平均 79.6% 成功率,比 SFT 基线 (OpenVLA-OFT, 74.85%) 提升 4.75%
  • 与依赖仿真器的 RIPT-VLA 性能持平,但无需仿真器,可直接部署到真实世界
  • 消融显示两个组件缺一不可:无额外数据时仿真器质量差导致训练失效;无奖励头时 off-the-shelf VLM 的评估不够精准
  • 真实世界实验中,4 个任务的成功率从 [20,30,30,20] 提升至 [30,50,40,50]
  • 动态终止机制有效:对比无终止信号的基线,所有方法在无真实终止反馈时性能均下降(π₀: 61.1→54.9),而 World-Env 通过反射器自主终止保持了优势

亮点与洞察

  • 范式创新:首次将世界模型作为 VLA RL 后训练的虚拟环境,开辟了"无需仿真器、无需真实交互"的第三条路
  • 即时反射器的双重作用:连续奖励解决稀疏奖励的优势坍塌问题,动态终止解决"成功后失败"问题,一举两得
  • 极端数据效率:每任务仅 5 条示范即可有效训练,验证了世界模型驱动 RL 在数据稀缺场景的巨大价值
  • 实际可部署:与仿真器 RL 方法性能持平但无需仿真器开发,真实世界实验进一步验证了可迁移性

局限与展望

  • 世界仿真器和即时反射器的训练仍需一定量的多样化数据,当前依赖 LIBERO 仿真器生成探索轨迹
  • 策略优化速度比并行方法慢,受限于仿真器轨迹生成的计算瓶颈
  • 世界模型的长时预测保真度可能随时间步衰减,影响长序列任务的训练效果
  • LIBERO-Long 子集的提升最小(57.0→57.8),说明对长序列决策的增强还有较大空间

相关工作与启发

  • OpenVLA-OFT (Kim et al., 2024):VLA 基座模型,将离散动作转为连续表示
  • RIPT-VLA (2025):仿真器 RL 后训练方法,与本文互为对照——仿真器 vs 世界模型
  • Genie 3 / V-JEPA 2:通用世界模型的进展可望进一步提升本框架的仿真质量
  • 启发:世界模型 + RL 这一范式可扩展到自动驾驶、导航等其他具身任务的策略后训练

评分 (⭐星级)

维度 评分
创新性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐
综合 ⭐⭐⭐⭐

相关论文