Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild¶
会议: CVPR 2026
arXiv: 2602.21736
代码: https://research.beingbeyond.com/jala
领域: 多模态VLM
关键词: VLA预训练, 潜在动作, 人类视频, 手部运动, 机器人操作
一句话总结¶
提出 JALA 框架,通过联合对齐预测嵌入与逆动力学生成的潜在动作,构建统一的潜在动作空间,使 VLA 能同时从标注数据和未标注的野外人类视频中学习,配合 7.5M 样本的 UniHand-Mix 数据集显著提升机器人操作泛化性。
研究背景与动机¶
- 领域现状:VLA(Vision-Language-Action)模型通过将视觉-语言模型适配到机器人数据来学习操作策略,但机器人数据的规模和多样性远不及视觉/语言领域。
- 现有痛点:利用人类视频数据存在质量-多样性 trade-off——实验室数据有精确手部追踪但场景受限,野外视频有丰富多样性但缺乏动作标注。
- 核心矛盾:先前的潜在动作方法(如 LAPA)依赖逆动力学模型推断潜在动作+前向动力学模型重建未来帧,但精细人手操作的视频重建极其困难,FDM 的质量瓶颈反过来污染了潜在动作的质量。
- 本文要解决什么? 如何在不依赖视觉重建的前提下,从标注和未标注的异构人类视频中提取有用的动作信号进行 VLA 预训练。
- 切入角度:人类通过可迁移的动作模式学习操作,而非记忆每个视觉细节。潜在动作应该从上下文可预测且与逆动力学一致,但不需要重建像素。
- 核心idea:用联合对齐(Joint Alignment)替代重建:VLA 的中间隐藏状态(预测嵌入)同时与动作标签和 IDM 推断的潜在动作对齐。
方法详解¶
整体框架¶
Transformer VLA 处理视觉+指令+运动 token → 对运动 chunk 使用掩码chunk预测(MCP)学习动作模式 → 通过 Latent Action Perceiver(LAP)从边界帧推断潜在动作 → 将 VLA 隐藏状态(预测嵌入)与潜在动作对齐 → 后训练阶段用 flow-matching head 迁移到机器人任务。
关键设计¶
- 联合对齐(Joint Alignment):
- 做什么:将预测嵌入同时与运动标签和视觉动态对齐
- 核心思路:VLA 隐藏状态 \(h_{i,k}\) 要同时满足两个约束——(a) 通过 MCP 预测正确的运动 token \(a_{i,k}\),(b) 与 LAP 生成的潜在动作 \(z_{i,k}\) 对齐:\(\mathcal{L}_{Align} = \sum_{i,k} \|h_{i,k} - z_{i,k}\|_1\)
-
设计动机:MCP 提供有动作标签时的监督,LAP 提供任何视频都可用的视觉动态信号,两者互补形成统一空间
-
Latent Action Perceiver (LAP) + Latent State Perceiver (LSP) 的解耦更新:
- 做什么:稳定地从视觉特征中提取潜在动作并与 VLA 上下文对齐
- 核心思路:LAP 和 LSP 共享 Perceiver 架构,LAP 处理运动边界帧 \((v_t, v_{t+\delta})\) 生成潜在动作,LSP 处理初始帧将 VLA 上下文映射到同一空间。通过非对称 EMA 更新解耦两者:backbone 权重从 LSP→LAP 传播,query 权重从 LAP→LSP 传播
-
设计动机:直接连接不同视觉编码器的特征空间会导致不稳定,解耦 EMA 让动作锚定和上下文预测各自渐进融合
-
混合掩码 chunk 预测(Hybrid MCP):
- 做什么:chunk 级别的动作 token 预测
- 核心思路:随机选一个 chunk 为主预测目标,其前的 chunk 保持不变,目标 chunk 内用随机比例掩码,其后的 chunk 用5%概率掩码。推理时多次解码并 ensemble
-
设计动机:naive 全掩码造成训练-推理 mismatch,混合策略保证上下文对齐
-
UniHand-Mix 数据集(7.5M样本):
- 做什么:融合实验室标注和野外视频的混合预训练数据
- 核心思路:5M+ 实验室标注样本(含精确 MANO 手部追踪)+ 2.5M 野外 Ego4D 样本(经手部检测验证和 Gemini 活动过滤)
- 数据规模:>2000小时视频,比此前最大的 UniHand 扩展了约2.5倍
后训练迁移¶
用 Diffusion Transformer (DiT) 的 flow-matching head 将预测嵌入转换为机器人动作,通过交叉注意力融合预训练知识。
实验关键数据¶
机器人操作(Libero 基准)¶
| 方法 | 参数量 | LIBERO-Spatial | LIBERO-Object | LIBERO-Goal | LIBERO-Long | 平均 |
|---|---|---|---|---|---|---|
| OpenVLA | 7B | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| π0 | 3B | 76.9 | 96.0 | 89.4 | 68.2 | 82.6 |
| JALA | ~2B | 优 | 优 | 优 | 优 | 超越同规模 |
手部运动生成(实验室 vs 野外)¶
| 方法 | 实验室 FID↓ | 野外 FID↓ |
|---|---|---|
| Being-H0 (仅实验室) | 较好 | 较差 |
| JALA | 保持 | 显著改善 |
关键发现¶
- JALA 在野外场景生成更真实的手部运动,同时保持实验室性能
- 相比仅用实验室数据,混合训练在 Libero 各子任务上一致提升
- 联合对齐比单独使用 MCP 或 LAP 都更好
- 在真实世界机器人任务(尤其是分布外场景)中表现优异
亮点与洞察¶
- 绕过FDM重建是关键创新:不重建像素而是对齐嵌入,避免了最大的质量瓶颈
- 解耦EMA更新的设计精巧:让 backbone 负责上下文,query 负责动作锚定,各取所长
- 7.5M 的 UniHand-Mix 是目前最大的人手操作预训练数据集
- 从人类视频到机器人操作的迁移路径(预训练→flow-matching 后训练)简洁高效
局限性 / 可改进方向¶
- 野外视频的 pseudo hand-pose annotation 置信度阈值 0.65 仍可能引入噪声
- MANO 参数表示限制了对非手部操作(如使用工具)的建模
- UniHand-Mix 的视频多为 egocentric 视角,第三人称视角的人类操作视频未纳入
- 真实世界机器人实验的任务种类和规模还有扩展空间
相关工作与启发¶
- vs LAPA: LAPA 通过 FDM 重建约束潜在动作空间,JALA 通过联合对齐绕过重建瓶颈
- vs Being-H0: Being-H0 仅用实验室标注数据,JALA 通过 LAP 扩展到野外视频
- vs OpenVLA/RoboVLM: 这些方法直接在机器人数据上训练,JALA 通过人类视频预训练获得更丰富的操作先验
- 潜在动作对齐的思路可推广到其他需要从异构数据中学习动作的场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 联合对齐范式革新了潜在动作学习方式
- 实验充分度: ⭐⭐⭐⭐ 手部生成+模拟+真实世界多维度验证
- 写作质量: ⭐⭐⭐⭐ 方法动机推导清晰,图示直观
- 价值: ⭐⭐⭐⭐⭐ 为VLA从人类视频的可扩展预训练提供了关键方法论