Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning¶
会议: NeurIPS 2025
arXiv: 2504.14305
代码: 项目页面
领域: 机器人 / 强化学习
关键词: 人形机器人, 对抗学习, 运动模仿, 全身控制, sim-to-real
一句话总结¶
ALMI提出上下半身对抗训练框架:下半身策略在上半身动作干扰下学习鲁棒运动,上半身策略在下半身运动干扰下学习精确动作模仿,通过迭代对抗训练收敛到Nash均衡,实现Unitree H1-2真实机器人的稳定全身协调控制。
研究背景与动机¶
- 领域现状:现有方法用整体RL策略同时控制所有关节,以运动追踪误差为奖励。
- 现有痛点:整体策略忽略上下半身功能差异;DoF多(21),训练困难;优先追踪精度而忽视平衡,真机频繁摔倒。
- 核心矛盾:上半身大幅动作破坏平衡,下半身快速移动影响上半身精度——天然对抗关系。
- 本文要解决什么? 让上下半身独立学习各自任务同时保证全身协调。
- 切入角度:将上下半身建模为零和博弈的两个玩家。
- 核心idea一句话:对抗训练让下半身学会"无论上半身怎么动都能平衡",上半身学会"无论下半身怎么走都能精确追踪"。
方法详解¶
整体框架¶
两个耦合的零和Markov博弈交替迭代:(1)学习\(\pi^l\)时上半身是adversary;(2)学习\(\pi^u\)时下半身是adversary。
关键设计¶
- 零和博弈建模:
- 核心思路:\(\max_{\pi^l} \min_{\pi^u} V_\rho^l\)和\(\max_{\pi^u} \min_{\pi^l} V_\rho^u\)
-
理论保证:Theorem 3.1证明收敛到\(\epsilon\)-近似Nash均衡
-
命令空间对抗(简化实现):
- 不直接优化对手参数,而是采样对抗性命令(更剧烈的动作/更快的速度)
-
Arm Curriculum逐步增加对抗难度
-
PPO训练:3轮对抗迭代,4096并行环境,约17小时
实验关键数据¶
主实验(CMU MoCap,1122动作片段)¶
| 方法 | \(E_{vel}\)↓ | \(E_{jpe}^{upper}\)↓ | Survival↑ |
|---|---|---|---|
| Exbody (整体) | 0.238 | 0.356 | 89.1% |
| ALMI (整体) | 0.139 | 0.576 | 99.9% |
| ALMI | 0.114 | 0.193 | 100% |
消融实验¶
| 配置 | Survival (Hard)↑ |
|---|---|
| ALMI (完整) | 97.2% |
| w/o curriculum | 96.1% |
| w/o adv. (第1轮) | 93.1% |
关键发现¶
- 每轮对抗迭代都提升鲁棒性
- 真机部署成功
- ALMI-X数据集:80K+全身控制轨迹+语言描述
亮点与洞察¶
- 将上下半身功能差异建模为对抗博弈是核心创新
- 命令空间对抗是实用化关键简化
- 理论保证+实际部署的罕见组合
局限性 / 可改进方向¶
- 上半身仅追踪关节位置,表达能力受限
- 真机实验较有限,缺乏定量评估
相关工作与启发¶
- vs Exbody/Exbody2:整体策略,不区分上下半身功能
- vs 分离控制方法:也分离但没有对抗训练保证协调性
评分¶
- 新颖性: ⭐⭐⭐⭐ 对抗博弈建模有洞察
- 实验充分度: ⭐⭐⭐⭐ 仿真+真机+消融+数据集
- 写作质量: ⭐⭐⭐⭐ 方法清晰
- 价值: ⭐⭐⭐⭐ 对人形机器人控制有实用价值