跳转至

📚 AI Paper Notes

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning¶

会议: NeurIPS 2025
arXiv: 2504.14305
代码: 项目页面
领域: 机器人 / 强化学习
关键词: 人形机器人, 对抗学习, 运动模仿, 全身控制, sim-to-real

一句话总结¶

ALMI提出上下半身对抗训练框架：下半身策略在上半身动作干扰下学习鲁棒运动，上半身策略在下半身运动干扰下学习精确动作模仿，通过迭代对抗训练收敛到Nash均衡，实现Unitree H1-2真实机器人的稳定全身协调控制。

研究背景与动机¶

领域现状：现有方法用整体RL策略同时控制所有关节，以运动追踪误差为奖励。
现有痛点：整体策略忽略上下半身功能差异；DoF多（21），训练困难；优先追踪精度而忽视平衡，真机频繁摔倒。
核心矛盾：上半身大幅动作破坏平衡，下半身快速移动影响上半身精度——天然对抗关系。
本文要解决什么？ 让上下半身独立学习各自任务同时保证全身协调。
切入角度：将上下半身建模为零和博弈的两个玩家。
核心idea一句话：对抗训练让下半身学会"无论上半身怎么动都能平衡"，上半身学会"无论下半身怎么走都能精确追踪"。

方法详解¶

整体框架¶

两个耦合的零和Markov博弈交替迭代：(1)学习\(\pi^l\)时上半身是adversary；(2)学习\(\pi^u\)时下半身是adversary。

关键设计¶

零和博弈建模：
核心思路：\(\max_{\pi^l} \min_{\pi^u} V_\rho^l\)和\(\max_{\pi^u} \min_{\pi^l} V_\rho^u\)
理论保证：Theorem 3.1证明收敛到\(\epsilon\)-近似Nash均衡
命令空间对抗（简化实现）：
不直接优化对手参数，而是采样对抗性命令（更剧烈的动作/更快的速度）
Arm Curriculum逐步增加对抗难度
PPO训练：3轮对抗迭代，4096并行环境，约17小时

实验关键数据¶

主实验（CMU MoCap，1122动作片段）¶

方法	\(E_{vel}\)↓	\(E_{jpe}^{upper}\)↓	Survival↑
Exbody (整体)	0.238	0.356	89.1%
ALMI (整体)	0.139	0.576	99.9%
ALMI	0.114	0.193	100%

消融实验¶

配置	Survival (Hard)↑
ALMI (完整)	97.2%
w/o curriculum	96.1%
w/o adv. (第1轮)	93.1%

关键发现¶

每轮对抗迭代都提升鲁棒性
真机部署成功
ALMI-X数据集：80K+全身控制轨迹+语言描述

亮点与洞察¶

将上下半身功能差异建模为对抗博弈是核心创新
命令空间对抗是实用化关键简化
理论保证+实际部署的罕见组合

局限性 / 可改进方向¶

上半身仅追踪关节位置，表达能力受限
真机实验较有限，缺乏定量评估

相关工作与启发¶

vs Exbody/Exbody2：整体策略，不区分上下半身功能
vs 分离控制方法：也分离但没有对抗训练保证协调性

评分¶

新颖性: ⭐⭐⭐⭐ 对抗博弈建模有洞察
实验充分度: ⭐⭐⭐⭐ 仿真+真机+消融+数据集
写作质量: ⭐⭐⭐⭐ 方法清晰
价值: ⭐⭐⭐⭐ 对人形机器人控制有实用价值