KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills¶

会议: NeurIPS 2025
arXiv: 2506.12851
代码: 项目主页
领域: video_understanding
关键词: humanoid control, motion imitation, reinforcement learning, adaptive tracking, sim-to-real

一句话总结¶

提出 PBHC 框架，通过物理感知运动处理流水线和自适应跟踪因子的双层优化，使人形机器人（Unitree G1）学会功夫、舞蹈等高动态全身动作，跟踪误差显著优于现有方法并成功实机部署。

研究背景与动机¶

高动态动作模仿极具挑战：现有人形机器人运动模仿方法（ExBody、OmniH2O 等）仅能跟踪低速平滑动作，对功夫踢腿、旋转跳跃等高动态行为无能为力。
参考运动物理可行性问题：从视频提取的人体运动序列可能违反机器人物理约束（关节极限、动力学），直接用 RL 最大化跟踪奖励难以收敛。
固定跟踪容差的不足：现有方法使用固定的跟踪奖励参数（tracking factor σ），无法适应不同难度的动作——σ 太大则奖励对误差不敏感，σ 太小则奖励趋近零。
数据集预处理代价高：H2O 需训练特权策略过滤不可行动作，ExBody2 需训练初始策略评估动作难度——都是昂贵的前置步骤。

方法详解¶

阶段一：运动处理流水线¶

1. 视频运动提取：使用 GVHMR 从单目视频估计 SMPL 格式运动，其重力-视角坐标系消除身体倾斜问题。

2. 物理感知运动过滤：基于 CoM-CoP 距离判断动态稳定性。令 \(\bar{\mathbf{p}}_t^{\text{CoM}}\) 和 \(\bar{\mathbf{p}}_t^{\text{CoP}}\) 分别为质心和压力中心在地面的投影：

\[\Delta d_t = \|\bar{\mathbf{p}}_t^{\text{CoM}} - \bar{\mathbf{p}}_t^{\text{CoP}}\|_2 < \epsilon_{\text{stab}}\]

一个 \(N\) 帧序列被认为稳定需满足：① 首尾帧均稳定；② 连续不稳定帧最长不超过阈值 \(\epsilon_N\)。

3. 接触掩码与运动修正：基于零速度假设从踝关节位移估计接触掩码：

\[c_t^{\text{left}} = \mathbb{I}[\|\mathbf{p}_{t+1}^{\text{l-ankle}} - \mathbf{p}_t^{\text{l-ankle}}\|_2^2 < \epsilon_{\text{vel}}] \cdot \mathbb{I}[p_{t,z}^{\text{l-ankle}} < \epsilon_{\text{height}}]\]

对悬浮伪影施加垂直偏移修正：\(\psi_{t,z}^{\text{corr}} = \psi_{t,z} - \Delta h_t\)，其中 \(\Delta h_t = \min_{v \in \mathcal{V}_t} p_{t,z}^v\)，随后用 EMA 平滑消除抖动。

4. 运动重定向：使用基于逆运动学的可微优化，在满足关节极限的前提下对齐末端执行器轨迹。

阶段二：自适应运动跟踪¶

指数形式跟踪奖励：

\[r(x) = \exp(-x / \sigma)\]

其中 \(x\) 为跟踪误差（如关节角 MSE），\(\sigma\) 为跟踪因子。\(\sigma\) 过大→奖励对误差不敏感；\(\sigma\) 过小→奖励趋零。

最优跟踪因子的双层优化：将 σ 的选择形式化为双层优化问题：

\[\max_{\sigma \in \mathbb{R}_+} J^{\text{ex}}(\mathbf{x}^*), \quad \text{s.t.} \quad \mathbf{x}^* \in \arg\max_{\mathbf{x} \in \mathbb{R}_+^N} J^{\text{in}}(\mathbf{x}, \sigma) + R(\mathbf{x})\]

其中内层目标 \(J^{\text{in}} = \sum_{i=1}^N \exp(-x_i/\sigma)\) 是简化累积奖励，外层目标 \(J^{\text{ex}} = \sum_{i=1}^N -x_i^*\) 最小化总跟踪误差。求解得最优跟踪因子等于平均最优跟踪误差：

\[\sigma^* = \left(\sum_{i=1}^N x_i^*\right) / N\]

自适应更新机制：维护跟踪误差的 EMA 估计 \(\hat{x}\)，在训练中动态收紧 σ：

\[\sigma \leftarrow \min(\sigma, \hat{x})\]

σ 单调不增，从较大初始值开始，随策略改善逐步收紧，形成闭环反馈。

RL 训练框架¶

非对称 Actor-Critic：Actor 仅观测本体感知 + 时间相位；Critic 额外接收参考运动位置、根线速度和随机物理参数
奖励向量化：每个奖励分量 \(r_i\) 配一个独立的价值头 \(V_i(\mathbf{s})\)，避免标量聚合导致的值估计不准
参考状态初始化（RSI）：从参考运动中随机采样时间点初始化，并行学习不同运动阶段
域随机化 + 零样本迁移：变化仿真物理参数，策略直接部署到真实 G1 机器人

实验¶

表1：主要跟踪性能对比（均值±标准差，粗体为最优）¶

方法	\(E_{\text{g-mpbpe}}\)↓(mm)	\(E_{\text{mpbpe}}\)↓(mm)	\(E_{\text{mpjpe}}\)↓(\(10^{-3}\)rad)
Easy
OmniH2O	233.54±4.0	103.67±1.9	1805.1±12.3
ExBody2	588.22±11.4	332.50±3.6	4014.4±21.5
PBHC	53.25±17.6	28.16±6.1	725.6±16.2
Medium
OmniH2O	433.64±16.2	151.42±7.3	2333.9±49.5
ExBody2	619.84±26.2	261.01±1.6	3738.7±26.9
PBHC	126.48±27.0	48.87±7.6	1043.3±104
Hard
OmniH2O	446.17±12.8	147.88±4.1	1939.5±23.9
ExBody2	689.68±11.8	246.40±1.3	4037.4±16.7
PBHC	290.36±139	124.61±54	1326.6±379

PBHC 在所有难度级别和所有指标上一致超越可部署基线（OmniH2O、ExBody2），Easy 级别全局位置误差从 234mm 降至 53mm（降幅 77%）。

表2：真实世界太极拳跟踪性能¶

平台	\(E_{\text{mpbpe}}\)↓	\(E_{\text{mpjpe}}\)↓	\(E_{\text{mpbve}}\)↓	\(E_{\text{mpjve}}\)↓
MuJoCo	33.18±2.7	1061±83.3	2.96±0.34	67.71±6.7
Real	36.64±2.6	1130±9.5	3.01±0.13	65.68±2.0

真实世界指标与仿真高度接近，验证了零样本 sim-to-real 迁移的有效性。

自适应机制消融¶

固定 σ 配置（Coarse/Medium/UpperBound/LowerBound）在不同动作上表现不一致——某些配置在特定动作上好但在其他动作上差。自适应机制在所有动作类型上一致达到近最优性能。

物理过滤有效性¶

对 10 条运动序列应用过滤，4 条被拒绝、6 条被接受。接受的动作 ELR（Episode Length Ratio）均高，拒绝的动作最高仅 54%，验证了物理可行性指标的有效性。

亮点¶

自适应跟踪因子理论优雅：将 σ 选择形式化为双层优化并推导出闭式解 σ*=平均误差，避免了人工调参
高动态能力突出：成功在真实 G1 机器人上展示功夫出拳、360°旋转踢、太极等高难度动作
运动处理流水线完整：从视频提取→物理过滤→接触修正→重定向，形成端到端管道
零样本 sim-to-real：无需真实世界微调即可成功部署

局限性¶

单策略单动作：每个动作需训练独立策略，无法高效扩展到大规模动作库
缺乏环境感知：不具备地形感知和避障能力，限制了非结构化环境中的部署
依赖 MoCap 视频质量：GVHMR 提取的运动可能不准确，物理过滤虽能剔除部分但非万能
Hard 级别方差较大：Hard 动作的跟踪误差标准差很高，说明稳定性仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ — 双层优化推导自适应 σ 的理论贡献扎实，物理过滤管道完整
实验充分度: ⭐⭐⭐⭐⭐ — 仿真对比 + 消融 + 真实部署 + sim-to-real 定量验证
写作质量: ⭐⭐⭐⭐ — 公式推导清晰，实验组织系统
价值: ⭐⭐⭐⭐ — 大幅推进人形机器人高动态技能学习的前沿