跳转至

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

会议: NeurIPS 2025
arXiv: 2504.14305
代码: 项目页面
领域: 机器人 / 强化学习
关键词: 人形机器人, 对抗学习, 运动模仿, 全身控制, sim-to-real

一句话总结

ALMI提出上下半身对抗训练框架:下半身策略在上半身动作干扰下学习鲁棒运动,上半身策略在下半身运动干扰下学习精确动作模仿,通过迭代对抗训练收敛到Nash均衡,实现Unitree H1-2真实机器人的稳定全身协调控制。

研究背景与动机

  1. 领域现状:现有方法用整体RL策略同时控制所有关节,以运动追踪误差为奖励。
  2. 现有痛点:整体策略忽略上下半身功能差异;DoF多(21),训练困难;优先追踪精度而忽视平衡,真机频繁摔倒。
  3. 核心矛盾:上半身大幅动作破坏平衡,下半身快速移动影响上半身精度——天然对抗关系。
  4. 本文要解决什么? 让上下半身独立学习各自任务同时保证全身协调。
  5. 切入角度:将上下半身建模为零和博弈的两个玩家。
  6. 核心idea一句话:对抗训练让下半身学会"无论上半身怎么动都能平衡",上半身学会"无论下半身怎么走都能精确追踪"。

方法详解

整体框架

两个耦合的零和Markov博弈交替迭代:(1)学习\(\pi^l\)时上半身是adversary;(2)学习\(\pi^u\)时下半身是adversary。

关键设计

  1. 零和博弈建模
  2. 核心思路:\(\max_{\pi^l} \min_{\pi^u} V_\rho^l\)\(\max_{\pi^u} \min_{\pi^l} V_\rho^u\)
  3. 理论保证:Theorem 3.1证明收敛到\(\epsilon\)-近似Nash均衡

  4. 命令空间对抗(简化实现)

  5. 不直接优化对手参数,而是采样对抗性命令(更剧烈的动作/更快的速度)
  6. Arm Curriculum逐步增加对抗难度

  7. PPO训练:3轮对抗迭代,4096并行环境,约17小时

实验关键数据

主实验(CMU MoCap,1122动作片段)

方法 \(E_{vel}\) \(E_{jpe}^{upper}\) Survival↑
Exbody (整体) 0.238 0.356 89.1%
ALMI (整体) 0.139 0.576 99.9%
ALMI 0.114 0.193 100%

消融实验

配置 Survival (Hard)↑
ALMI (完整) 97.2%
w/o curriculum 96.1%
w/o adv. (第1轮) 93.1%

关键发现

  • 每轮对抗迭代都提升鲁棒性
  • 真机部署成功
  • ALMI-X数据集:80K+全身控制轨迹+语言描述

亮点与洞察

  • 将上下半身功能差异建模为对抗博弈是核心创新
  • 命令空间对抗是实用化关键简化
  • 理论保证+实际部署的罕见组合

局限性 / 可改进方向

  • 上半身仅追踪关节位置,表达能力受限
  • 真机实验较有限,缺乏定量评估

相关工作与启发

  • vs Exbody/Exbody2:整体策略,不区分上下半身功能
  • vs 分离控制方法:也分离但没有对抗训练保证协调性

评分

  • 新颖性: ⭐⭐⭐⭐ 对抗博弈建模有洞察
  • 实验充分度: ⭐⭐⭐⭐ 仿真+真机+消融+数据集
  • 写作质量: ⭐⭐⭐⭐ 方法清晰
  • 价值: ⭐⭐⭐⭐ 对人形机器人控制有实用价值