ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation¶
日期: 2026-03-03
arXiv: 2603.03279
代码: https://ultra-humanoid.github.io/
领域: 机器人
关键词: 人形机器人, 全身运动操作, 运动重定向, 多模态控制, 强化学习
一句话总结¶
ULTRA 提出一套完整的人形机器人全身运动操作框架:从物理驱动的神经重定向生成高质量训练数据,到统一的多模态控制器支持密集参考跟踪和稀疏目标执行,在 Unitree G1 上实现了从自我中心感知到自主操作的闭环控制。
研究背景与动机¶
- 领域现状:人形机器人的全身运动操作(loco-manipulation)是让机器人实用化的核心能力。现有方法主要靠预定义运动参考的跟踪来实现。
- 现有痛点:(1) 运动重定向数据质量差——运动学重定向无法保证物理一致性,尤其在接触丰富的操作任务中(手持物体时脚底打滑、物体穿透);(2) 策略架构僵化——现有控制器只能处理一种输入类型(要么密集参考跟踪,要么稀疏目标达成),无法在二者之间切换。
- 核心矛盾:密集跟踪策略精度高但缺乏参考就崩溃,纯目标条件策略灵活但缺乏精细协调——需要一个能在两种模式间平滑切换的统一控制器。
- 切入角度:(1) 用 RL 替代运动学求解来做重定向,物理模拟器自动保证动力学和接触约束;(2) 用可用性掩码(availability masking)实现多模态统一,同一策略网络根据输入掩码自动切换行为模式。
- 核心 idea 一句话:物理驱动的大规模重定向+掩码式多模态蒸馏+RL 微调,一个策略同时完成参考跟踪和自主操作。
方法详解¶
整体框架¶
四阶段训练流水线:(1) 神经重定向——RL 策略将人类 MoCap 转换为 G1 可执行轨迹;(2) 教师策略——特权观测下的密集跟踪;(3) 学生蒸馏——DAgger + 变分技能瓶颈 + RL 微调得到多模态学生策略;(4) 部署——同一策略支持跟踪/目标达成/视觉操作三种模式。
关键设计¶
-
物理驱动神经重定向:
- 做什么:将人类 SMPL-X 运动+物体轨迹在物理模拟中转化为 G1 可执行轨迹
- 核心思路:将重定向建模为 RL 轨迹优化问题,奖励函数融合末端执行器跟踪 \(r_p\)、链接方向匹配 \(r_r\)、物体跟踪 \(r_{obj}\)、交互距离 \(r_{int}\)、接触对齐 \(r_{ct}\):\(r_{\text{track}} = r_p \cdot r_r \cdot r_{obj} \cdot r_{int} \cdot r_{ct} \cdot r_{eng}\)
- 关键优势:一个统一策略处理所有运动序列(无需逐轨迹训练)+ 支持零样本增强(各向异性缩放轨迹和物体),数据集扩大 ~6 倍
- vs 运动学重定向:物理模拟保证接触一致性,避免脚底打滑、物体穿透等问题
-
统一多模态学生策略:
- 做什么:从特权教师蒸馏出一个支持多种输入模态和目标规范的学生策略
- 核心思路:学生接收异构输入 \(\boldsymbol{o}_t^{\text{student}} = [\boldsymbol{o}_t^{\text{proprio}}, \boldsymbol{o}_t^{\text{goal}}, \boldsymbol{o}_t^{\text{object}}, \boldsymbol{o}_t^{\text{pcd}}, \boldsymbol{m}_t]\),训练时随机采样可用性掩码 \(\boldsymbol{m}_t\) 决定哪些模态可见
- 变分技能瓶颈:编码器推断潜在残差 \(z_t^{\text{res}}\)(用特权信息),先验网络预测 \(z_t^{\text{prior}}\)(仅用学生观测),KL 散度对齐二者
- 设计动机:掩码机制让同一网络适应不同输入缺失情况,技能瓶颈在稀疏目标下解决运动歧义
-
RL 微调扩展覆盖:
- 做什么:在蒸馏基础上用 RL 微调扩展交互状态覆盖
- 核心思路:并行环境分为蒸馏环境(继续模仿)和 RL 环境(优化目标达成+随机扰动),两组梯度混合训练
- 设计动机:离线蒸馏受限于教师 rollout 的状态覆盖,RL 微调引入分布外的目标和初始化,提高鲁棒性
部署模式¶
同一策略通过模态掩码切换三种模式: - 密集跟踪:取消掩码局部参考 - 目标条件控制:掩码局部参考,取消掩码长程目标 - 视觉操作:掩码 MoCap 物体状态,取消掩码自我中心点云
实验关键数据¶
运动跟踪(IsaacGym)¶
| 方法 | ID Succ↑(+物体) | OOD Succ↑(+物体) |
|---|---|---|
| HDMI | 9.94 | 12.95 |
| OmniRetarget | 20.91 | 25.82 |
| ULTRA | 57.44 | 52.00 |
| ULTRA Teacher | 89.79 | 81.33 |
重定向质量对比¶
| 方法 | 脚底滑动时长↓ | 接触漂浮↓ | 穿透深度↓ |
|---|---|---|---|
| PHC | 较高 | 较高 | 较高 |
| OmniRetarget | 中等 | 高 | 中等 |
| ULTRA | 最低 | 接近零 | 最低 |
关键发现¶
- 统一策略(57.44%)vs 仅蒸馏(77.15%)vs 仅 RL(41.78%):蒸馏提供良好初始化,RL 微调在目标达成上带来关键提升
- 物理驱动重定向的数据增强(~6x)显著提高泛化性——OOD 成功率维持在 ID 的 90%+
- 在 Unitree G1 真机上成功演示搬箱子等操作任务,从自我中心深度感知输入
亮点与洞察¶
- 可用性掩码是实现统一多模态控制的优雅方案:训练时随机丢模态,部署时按需选择,同一网络覆盖跟踪→目标达成→视觉操作的全谱系
- RL 做重定向而非运动学求解:物理模拟器作为约束求解器,一步到位解决动力学、接触、穿透等问题,且支持零样本数据增强
- 蒸馏+RL 微调的混合训练范式可迁移到其他需要从示教到自主控制的机器人学习场景
局限性 / 可改进方向¶
- 学生策略(57.44%)与教师(89.79%)差距仍然较大,蒸馏过程信息损失严重
- 仅使用 4 种盒状物体,未验证对铰接物体或柔性物体的泛化
- 自我中心深度感知在遮挡和远距离场景下可能不可靠
- 未与层次化方法(高层规划+低层控制)做对比
相关工作与启发¶
- vs OmniRetarget:OmniRetarget 用运动学+交互网格增强,ULTRA 用 RL 物理重定向,后者接触质量大幅领先
- vs HDMI:HDMI 专注运动跟踪,ULTRA 统一跟踪和目标达成
- vs 层次化方法(轨迹规划+跟踪):ULTRA 端到端避免了层次间误差累积
评分¶
- 新颖性: ⭐⭐⭐⭐ 物理驱动重定向+掩码多模态统一是系统层面的创新
- 实验充分度: ⭐⭐⭐⭐ 仿真+真机,消融完整,重定向质量指标全面
- 写作质量: ⭐⭐⭐⭐ 四阶段流水线描述清晰,图示直观
- 价值: ⭐⭐⭐⭐⭐ 为人形机器人从示教到自主操作提供了完整的技术路线