World2Act: Latent Action Post-Training via Skill-Compositional World Models¶

会议: CVPR 2025
arXiv: 2603.10422
代码: https://wm2act.github.io/
领域: 视频理解 / 机器人
关键词: World Model, VLA后训练, 潜在空间对齐, 技能分解, 对比学习

一句话总结¶

World2Act 提出了一种基于潜在空间对齐的 VLA 后训练方法：通过对比学习将 World Model 的视频动态潜表示与 VLA 的动作表示对齐（而非在像素空间监督），并引入 LLM 驱动的技能分解流水线实现任意长度视频生成，在 RoboCasa 和 LIBERO 上以 50 条合成轨迹即达到 SOTA，真实世界提升 6.7%。

研究背景与动机¶

领域现状：VLA（\(\pi_0\), GR00T-N1.6）通过行为克隆学习，但对环境变化和新接触条件泛化不足。World Model（Cosmos-Predict2）可以生成物理一致的滚动轨迹。
现有痛点：（1）WM 后训练通常用像素空间监督（逆动力学模型/像素奖励），但 WM 的像素滚动会放大噪声和幻觉；（2）视频扩散模型在固定长度 clip 上训练，而机器人任务时长差异大，任意长度生成是瓶颈；（3）收集同时包含相机运动和操作标签的真实数据极其昂贵。
核心矛盾：WM 包含丰富的动态先验，但像素级别传递这些先验时会引入幻觉和伪影。
本文要解决什么？ 如何在不依赖像素的情况下将 WM 的动态先验转移到 VLA 策略中？如何让 WM 支持任意长度的视频生成？
切入角度：在 WM 的潜在空间而非像素空间中进行动作-视频对齐；用 LLM 将长任务分解为原子技能段以实现稳定长视频生成。
核心idea一句话：WM 潜在表示 + VLA 动作表示的对比对齐 + 技能分解的任意长度 WM = 数据高效的 VLA 后训练。

方法详解¶

整体框架¶

两阶段后训练：Stage 1 用对比学习训练 Video Adapter 和 Action Adapter 将两种模态映射到共享潜在空间；Stage 2 冻结 VLA backbone，用轻量级残差策略（Residual Policy）驱动 VLA 动作向 WM 动态先验靠拢。

关键设计¶

技能分解的 World Model (Skill-WM):
做什么：将长任务分解为原子技能段，支持任意长度视频生成
核心思路：通过夹爪状态变化分割视频流，用 LLM（DeepSeek）将全局指令分解为有序的原子技能描述，同步视频段和语言。推理时 LLM 生成技能列表，WM 逐段生成，上一段最后帧作为下一段初始条件
设计动机：原子技能的长度分布更均匀集中（密度提升 17-72%），减少长尾导致的误差累积
Stage 1: 潜在空间对齐:
做什么：训练 Video Adapter \(\mathcal{B}_v\)（CNN）和 Action Adapter \(\mathcal{B}_a\)（MLP）将视频潜表示和动作映射到共享空间
核心思路：双向 InfoNCE 对比损失 + 动作重建 MSE 损失。chunk-wise 对齐（每 \(M\) 帧一个 chunk）而非全局轨迹对齐，防止模型用任务身份等捷径匹配。Hard negatives 来自同一 skill 的不同 demo
架构细节：Video Adapter 是 3 层 1D 时序 CNN，将 WM 的 DiT 隐层特征（token 维度 ~4096）映射到 256 维共享空间；Action Adapter 是 2 层 MLP（隐藏层 512），将 \(M\) 步动作向量拼接后也映射到 256 维。InfoNCE 温度参数 \(\tau = 0.07\)，batch 内所有非配对 chunk 为 easy negatives
设计动机：chunk-wise 对齐鼓励细粒度时间动态匹配，不同于全局 embedding 可能忽略时序细节
Stage 2: 残差策略后训练:
做什么：冻结 VLA backbone，学习轻量残差修正 \(f^\theta\)，使 \(a_{\text{final}} = a_{\text{base}} + a_{\text{residual}}\)
核心思路：在线滚动当前增强策略，用冻结的 WM 生成视频潜表示作为目标，计算 \(z^v\) 和 \(z^a\) 的对比损失来训练残差网络。无需奖励或环境成功信号
设计动机：残差策略保留了 VLA 原始能力（避免灾难性遗忘），且样本效率高（仅需轻量网络）

损失函数¶

\[\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{contrastive}}\]

实验关键数据¶

主实验（RoboCasa）¶

方法	Real Demos	Synthetic	SR
\(\pi_0\)	300	0	62.5%
GR00T-N1.6	300	0	66.2%
Cosmos Policy	50	0	65.7%
GR00T-N1.6-ft + DreamGen	350	+50	70.5%
GR00T-N1.6-ft + World2Act	350	+50	72.6%
Cosmos + World2Act	50	+50	66.3%

LIBERO（4 个 suite 平均）¶

World2Act 在 LIBERO-Long 上将 Cosmos Policy 从 85.2% 提升到 89.6%，GR00T-N1.6-ft 从 87.6% 提升到 91.2%。

Suite	Cosmos	+World2Act	GR00T-N1.6-ft	+World2Act
LIBERO-Spatial	91.0%	93.4%	92.8%	95.0%
LIBERO-Object	93.2%	95.0%	94.6%	96.4%
LIBERO-Goal	88.4%	91.8%	90.2%	93.4%
LIBERO-Long	85.2%	89.6%	87.6%	91.2%

LIBERO-Long（需要多步长序列推理）提升最大，验证了 Skill-WM 在长任务上的优势。

消融/关键发现¶

潜在空间对齐 vs 像素空间监督：潜在空间方法在有幻觉的 WM 滚动下更鲁棒
Skill-WM vs Base-WM：技能分解后视频生成时间一致性大幅提升（FVD 降低）
chunk-wise 对比 > trajectory-wise 对比：细粒度时间对齐更有效
50 条合成轨迹即可实现有意义的提升，极高的数据效率
真实世界实验提升 6.7%，验证 sim-to-real 迁移能力

亮点与洞察¶

潜在空间对齐替代像素监督：核心洞察是 WM 的潜表示比像素更抗幻觉——像素级监督放大噪声，潜在表示保留了动态先验的本质
LLM 驱动的自动技能分解：用夹爪状态做视觉流分割 + LLM 做指令分解，全自动且同步率 >86%，是实用的数据工程方案
残差策略的优雅设计：不碰原始 VLA 权重，仅学习轻量修正，兼顾能力保留和新知识注入
对比学习连接 WM 和 VLA：InfoNCE 作为无奖励的 WM→VLA 知识转移信号，避免了 RL 的不稳定性

局限性 / 可改进方向¶

WM 选择（Cosmos-Predict2）对后训练效果有重要影响，不同 WM 的适用性差异未充分探讨；作者仅在 Cosmos 家族上验证，开源替代（如 OpenSora）效果未知
残差策略假设 base VLA 已有基本能力——对于完全失败的 base policy 可能无效，本质上是"微调"而非"从零学习"
技能分解依赖夹爪状态变化，不适用于非抓取任务（如推/滑）
仅在操作任务上验证，导航等其他具身任务待测

评分¶

新颖性: ⭐⭐⭐⭐⭐ 潜在空间对齐 + 技能分解 WM 的组合非常新颖
实验充分度: ⭐⭐⭐⭐⭐ RoboCasa + LIBERO + 真实世界 + 多基线对比 + 消融
写作质量: ⭐⭐⭐⭐ 两阶段设计清晰，技术细节详尽
价值: ⭐⭐⭐⭐⭐ WM→VLA 知识转移的新范式，实用且高效