Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild¶

会议: CVPR 2026
arXiv: 2602.21736
代码: https://research.beingbeyond.com/jala
领域: 多模态VLM
关键词: VLA预训练, 潜在动作, 人类视频, 手部运动, 机器人操作

一句话总结¶

提出 JALA 框架，通过联合对齐预测嵌入与逆动力学生成的潜在动作，构建统一的潜在动作空间，使 VLA 能同时从标注数据和未标注的野外人类视频中学习，配合 7.5M 样本的 UniHand-Mix 数据集显著提升机器人操作泛化性。

研究背景与动机¶

领域现状：VLA（Vision-Language-Action）模型通过将视觉-语言模型适配到机器人数据来学习操作策略，但机器人数据的规模和多样性远不及视觉/语言领域。
现有痛点：利用人类视频数据存在质量-多样性 trade-off——实验室数据有精确手部追踪但场景受限，野外视频有丰富多样性但缺乏动作标注。
核心矛盾：先前的潜在动作方法（如 LAPA）依赖逆动力学模型推断潜在动作+前向动力学模型重建未来帧，但精细人手操作的视频重建极其困难，FDM 的质量瓶颈反过来污染了潜在动作的质量。
本文要解决什么？ 如何在不依赖视觉重建的前提下，从标注和未标注的异构人类视频中提取有用的动作信号进行 VLA 预训练。
切入角度：人类通过可迁移的动作模式学习操作，而非记忆每个视觉细节。潜在动作应该从上下文可预测且与逆动力学一致，但不需要重建像素。
核心idea：用联合对齐（Joint Alignment）替代重建：VLA 的中间隐藏状态（预测嵌入）同时与动作标签和 IDM 推断的潜在动作对齐。

方法详解¶

整体框架¶

Transformer VLA 处理视觉+指令+运动 token → 对运动 chunk 使用掩码chunk预测（MCP）学习动作模式 → 通过 Latent Action Perceiver（LAP）从边界帧推断潜在动作 → 将 VLA 隐藏状态（预测嵌入）与潜在动作对齐 → 后训练阶段用 flow-matching head 迁移到机器人任务。

关键设计¶

联合对齐（Joint Alignment）:
做什么：将预测嵌入同时与运动标签和视觉动态对齐
核心思路：VLA 隐藏状态 \(h_{i,k}\) 要同时满足两个约束——(a) 通过 MCP 预测正确的运动 token \(a_{i,k}\)，(b) 与 LAP 生成的潜在动作 \(z_{i,k}\) 对齐：\(\mathcal{L}_{Align} = \sum_{i,k} \|h_{i,k} - z_{i,k}\|_1\)
设计动机：MCP 提供有动作标签时的监督，LAP 提供任何视频都可用的视觉动态信号，两者互补形成统一空间
Latent Action Perceiver (LAP) + Latent State Perceiver (LSP) 的解耦更新:
做什么：稳定地从视觉特征中提取潜在动作并与 VLA 上下文对齐
核心思路：LAP 和 LSP 共享 Perceiver 架构，LAP 处理运动边界帧 \((v_t, v_{t+\delta})\) 生成潜在动作，LSP 处理初始帧将 VLA 上下文映射到同一空间。通过非对称 EMA 更新解耦两者：backbone 权重从 LSP→LAP 传播，query 权重从 LAP→LSP 传播
设计动机：直接连接不同视觉编码器的特征空间会导致不稳定，解耦 EMA 让动作锚定和上下文预测各自渐进融合
混合掩码 chunk 预测（Hybrid MCP）:
做什么：chunk 级别的动作 token 预测
核心思路：随机选一个 chunk 为主预测目标，其前的 chunk 保持不变，目标 chunk 内用随机比例掩码，其后的 chunk 用5%概率掩码。推理时多次解码并 ensemble
设计动机：naive 全掩码造成训练-推理 mismatch，混合策略保证上下文对齐
UniHand-Mix 数据集（7.5M样本）:
做什么：融合实验室标注和野外视频的混合预训练数据
核心思路：5M+ 实验室标注样本（含精确 MANO 手部追踪）+ 2.5M 野外 Ego4D 样本（经手部检测验证和 Gemini 活动过滤）
数据规模：>2000小时视频，比此前最大的 UniHand 扩展了约2.5倍

后训练迁移¶

用 Diffusion Transformer (DiT) 的 flow-matching head 将预测嵌入转换为机器人动作，通过交叉注意力融合预训练知识。

实验关键数据¶

机器人操作（Libero 基准）¶

方法	参数量	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	平均
OpenVLA	7B	84.7	88.4	79.2	53.7	76.5
π0	3B	76.9	96.0	89.4	68.2	82.6
JALA	~2B	优	优	优	优	超越同规模

手部运动生成（实验室 vs 野外）¶

方法	实验室 FID↓	野外 FID↓
Being-H0 (仅实验室)	较好	较差
JALA	保持	显著改善

关键发现¶

JALA 在野外场景生成更真实的手部运动，同时保持实验室性能
相比仅用实验室数据，混合训练在 Libero 各子任务上一致提升
联合对齐比单独使用 MCP 或 LAP 都更好
在真实世界机器人任务（尤其是分布外场景）中表现优异

亮点与洞察¶

绕过FDM重建是关键创新：不重建像素而是对齐嵌入，避免了最大的质量瓶颈
解耦EMA更新的设计精巧：让 backbone 负责上下文，query 负责动作锚定，各取所长
7.5M 的 UniHand-Mix 是目前最大的人手操作预训练数据集
从人类视频到机器人操作的迁移路径（预训练→flow-matching 后训练）简洁高效

局限性 / 可改进方向¶

野外视频的 pseudo hand-pose annotation 置信度阈值 0.65 仍可能引入噪声
MANO 参数表示限制了对非手部操作（如使用工具）的建模
UniHand-Mix 的视频多为 egocentric 视角，第三人称视角的人类操作视频未纳入
真实世界机器人实验的任务种类和规模还有扩展空间

评分¶

新颖性: ⭐⭐⭐⭐⭐ 联合对齐范式革新了潜在动作学习方式
实验充分度: ⭐⭐⭐⭐ 手部生成+模拟+真实世界多维度验证
写作质量: ⭐⭐⭐⭐ 方法动机推导清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 为VLA从人类视频的可扩展预训练提供了关键方法论