UniAct: Universal Actions for Enhanced Embodied Foundation Models¶

会议: CVPR 2025
arXiv: 2501.10105
代码: 项目页面
领域: 机器人
关键词: 具身智能, 通用动作空间, 跨具身迁移, 视觉语言动作模型, 向量量化

一句话总结¶

UniAct提出在通用动作空间（Universal Action Space）中构建具身基础模型，通过向量量化codebook编码跨具身平台共享的原子行为，0.5B参数模型性能超越14倍大的SOTA模型，并支持快速适配新机器人。

研究背景与动机¶

开发通用具身基础模型面临的核心挑战是动作异质性（action heterogeneity）：

具身差异：不同自由度的机器人（机械臂、四足、汽车）拥有完全不同的动作空间
控制接口差异：即使同一机器人，末端执行器位置控制和速度控制具有根本不同的物理含义
行为多模态性：不同操作者在同一平台上收集的数据也存在多模态性

现有方案的不足： - 粗暴统一：RT-X、Octo、OpenVLA强行将不同动作空间视为等价，导致相似编码可能代表完全不同的物理含义 - 朴素聚合：CrossFormer、RDT聚合所有动作空间但未挖掘跨平台的共性 - 潜在动作：LAPA等通过视频帧变化推断潜在动作，但会捕获与控制无关的干扰信息（如新物体出现）

关键洞察是：尽管不同机器人的控制信号差异巨大，面对正前方目标时它们应该执行相似的"向前移动"行为。这种抽象的原子行为可以跨具身共享。

方法详解¶

整体框架¶

UniAct基于预训练的VLM（LLaVA-OneVision-0.5B）构建，包含三个核心组件：(1) 共享VLM作为通用动作提取器；(2) 向量量化codebook \(\mathcal{U} \in \mathbb{R}^{256 \times 128}\)作为通用动作空间；(3) 轻量级异构解码头将通用动作翻译为具体控制信号。

关键设计¶

设计一：通用动作空间 — 离散向量量化Codebook

功能：将跨具身平台的异构动作蒸馏为共享的原子行为表示
核心思路：使用\(N=256\)个\(D=128\)维向量组成codebook \(\mathcal{U} = (u_1, u_2, \ldots, u_N)\)，每个code编码一个通用的原子行为。所有机器人被迫使用同一codebook，形成关键的信息瓶颈，驱动模型发现和利用跨平台的共享原始行为
设计动机：离散表示在复杂推理、规划和预测学习中展现了强大能力（如LLM的成功）。限制为离散空间迫使模型压缩信息，提取真正跨平台共享的行为本质

设计二：通用动作提取器 — 基于VLM的任务导向提取

功能：根据观察\(o\)和任务目标\(g\)推断最相关的通用动作\(u^* = \arg\max_{u \in \mathcal{U}} p(u|o,g)\)
核心思路：微调预训练VLM输出codebook上的概率分布，通过Gumbel-Softmax实现可微分的动作选择：\(u^* = \sum_{i=1}^n w_i u_i\)，其中权重\(w_i\)通过Gumbel-Softmax计算。训练过程中逐步降低温度\(\tau\)
设计动机：与仅通过视频帧变化推断潜在动作不同，本方法以任务进展为导向提取通用动作，避免捕获与控制无关的观测变化。利用VLM的视觉-语言推理能力和预训练知识提高样本效率

设计三：异构解码头 — 轻量级具身特定翻译

功能：将高度抽象的通用动作翻译为各具身平台可执行的精确控制信号
核心思路：为每种具身类型设计简单的MLP解码头\(h_k\)，输入通用动作\(u^*\)和视觉特征\(o\)，输出具身特定的控制命令\(\hat{a}^{(k)} = h_k(u^*, o)\)。新机器人适配只需添加新的解码头
设计动机：保持解码头轻量确保主要学习集中在通用动作空间，最大化跨具身泛化能力。通用行为已被捕获，解码器只需添加具身细节

损失函数¶

总训练目标为所有领域的行为克隆损失之和：\(\min_{\mathcal{U},\theta} \sum_{k=1}^K \mathbb{E}_{a_i \in \tau_i, \tau_i \in \mathcal{D}_k} \mathcal{L}_k(\hat{a}^{(k)}, a_i^{(k)})\)，其中\(\mathcal{L}_k\)可根据动作类型定制（离散动作用交叉熵，连续动作用MSE/Huber/扩散损失）。Codebook和提取器全局更新，解码头按领域更新。

实验关键数据¶

主实验：真实世界WidowX机器人（19个任务，190次rollout）¶

模型	参数量	Visual	Motion	Physical	Semantic	Language
Octo	0.1B	低	低	低	低	低
CrossFormer	0.1B	低	低	低	低	低
OpenVLA	7B	中	中	中	高	高
UniAct	0.5B	高	高	高	高	高

UniAct-0.5B在视觉、运动、物理泛化任务上超越14倍大的OpenVLA-7B。

消融/适配实验：新机器人AIRBOT快速适配¶

预训练模型	Sweep Plate	Fold Towel	Cup on Plate	Transport Pen
LLaVa-OV-0.5B	7.5%	20%	2.5%	15%
UniAct-0.5B	45%	62.5%	50%	65%

UniAct仅用0.8%参数（4M/500M）微调即可适配新机器人，远低于OpenVLA的1.4%和Octo的2%。

关键发现¶

通过手动检查256个通用动作，至少40%在不同机器人间展现完全一致的语义行为
同一任务在不同机器人上的通用动作利用分布相似（低JS散度），不同任务则不同
可以直接通过选择通用动作ID手动控制机器人执行复杂任务，无需了解正/逆运动学

亮点与洞察¶

信息瓶颈的精妙设计：离散codebook强制不同具身共享同一抽象空间，自然地驱动模型发现跨平台共性
任务导向 vs 观测导向：通用动作基于任务进展而非视频帧差异提取，避免了无关视觉变化的干扰
极致的高效性：0.5B模型碾压7B模型，证明了"正确的表示空间比模型规模更重要"

局限与展望¶

当前仅使用0.5B参数和单臂机器人评估，受资源限制
未来将扩展至更大模型和更多具身类型（双臂机器人、自动驾驶）
通用动作提取器可作为动作tokenizer，为未来大规模具身基础模型的规划提供支持

评分¶

⭐⭐⭐⭐⭐ — 工作极具开创性，通用动作空间的概念清晰优雅，实验设计全面（真实机器人+仿真+新机器人适配），0.5B碾压7B的结果令人印象深刻。对具身AI领域的表示学习具有重要启示意义。