跳转至

A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions

会议: ICCV 2025
arXiv: 2412.17377
代码: 项目主页
领域: 人体理解 / 动作捕捉 / 物理仿真
关键词: 物理动作恢复, 动作模仿, 测试时适应, 运动修正, 高难度动作

一句话总结

提出即插即用的物理动作恢复方法,通过Mask条件运动修正模块(MCM)修复视频动捕中的瑕疵帧,以及基于预训练+测试时适应的物理运动迁移模块(PTM)实现高难度野外动作的物理仿真,显著提升动作的物理真实性。

研究背景与动机

从单目视频中提取物理合理的3D人体运动是一个关键任务。当前视频动捕方法(如GVHMR、TRAM)可以快速获取3D运动,但缺乏动力学建模,存在严重的物理不真实问题: - 悬浮(floating):身体漂浮在地面上方 - 脚滑(foot sliding):脚在接触地面时滑动 - 自穿透(self-penetration):身体部位相互穿透 - 地面穿透(ground penetration):身体穿过地面

现有基于物理仿真的动作模仿方法(如PHC+、UHC)可以改善日常动作(走、跑、跳)的物理质量,但面对高难度动作(体操、武术、舞蹈等)仍然无能为力,原因有两个:

挑战1 — 瑕疵参考动作:面对快速运动和极端姿态时,视频动捕算法会产生瑕疵帧(不连贯的姿态),即使时间很短也会导致物理仿真失败。

挑战2 — 内在模仿复杂性:高难度动作的长尾分布、复杂力控制、以及灾难性遗忘问题,使得单一控制器难以泛化到多样化的高难度动作。

方法详解

整体框架

给定视频动捕结果(参考动作)及原始视频,整体pipeline为: 1. MCM(Mask-conditioned Correction Module):检测并修正瑕疵动作帧 2. PTM(Physics-based Motion Transfer Module):对修正后的动作进行物理仿真恢复 - 若PTM初次失败,启动测试时适应(TTA)更新网络参数,直到成功或达到阈值

整个方法设计为即插即用模块,可直接集成到任何视频动捕方法之后。

关键设计

1. Mask条件运动修正模块(MCM)

问题:高难度动作中的模糊帧导致动捕算法定位身体部位失败,产生时间不连贯的瑕疵动作。

关键洞察:分割方法天然具有前后景区分能力,即使在模糊帧中也能定义身体大致范围。瑕疵动作时间短且被丰富的运动上下文包围,使得基于分割引导的插值替换成为可能。

瑕疵检测(Mismatch Detection): - 将3D位置投影为2D坐标 → 与目标检测提取的2D关键点计算OKS相似度 - 低于阈值的帧标记为瑕疵动作 - 也可利用SMPL mesh投影与人体分割mask的重合度进行检测

运动修正(Motion Correction): - 使用SAM获取人体分割mask - 预训练ViT作为mask特征提取器,捕获丰富的人体姿态信息 - 将mask特征与运动上下文作为条件,输入扩散模型进行motion in-betweening - 10%训练数据设为无条件生成,增强泛化能力 - 基于GMD的UNet架构实现

2. 物理运动迁移模块(PTM)

预训练阶段: - 在AMASS、Human3.6M、AIST++、Motion-X(kungfu子集)4个数据集上训练模仿控制器 - 使用PPO优化策略 \(\pi_{\text{PTM}}\) - PD控制器计算关节力矩:\(\tau^i = k_p^i(a_t^i - x_t^i) - k_d^i q_t^i\) - AMP判别器提供风格奖励 - 总奖励 = 重建奖励 + AMP风格奖励 + 能量惩罚

RL-based测试时适应(TTA)

核心创新 — 利用RL的试错性质,在测试时对当前动作进行有限步数的参数更新,逐个处理每条动作序列。包含以下适应设定:

相对奖励(Relative Reward):捕获的参考动作包含抖动和根节点误差累积,构建完全重建奖励有害。因此忽略绝对根位置,通过旋转显式引导、速度隐式引导来维持全局方向和平移:

\[r_t^g = e^{w_p\|rela(\hat{p}_t) - rela(p_t)\|} + e^{w_r\|\hat{\theta}_t \ominus \theta_t\|} + e^{w_v\|\hat{v}_t - v_t\|} + e^{w_\omega\|\hat{\omega}_t - \omega_t\|}\]

相对终止条件(Early Termination):传统严格终止条件在面对低质量动作时极易触发失败。设计基于各关节平均相对距离的终止条件,更宽松以适应高难度动作:

\[\mathcal{F}_t = \left(\frac{1}{J}\sum_{i=1}^J\|rela(\hat{p}_t^i) - rela(p_t^i)\| > d_{term}\right) \vee \mathcal{F}_t^h \vee \mathcal{F}_t^c\]

残差力(Residual Force):高难度动作常涉及空中翻转和跳跃(依赖蹦床/垫子),引入外力补偿仿真中缺失的环境条件。

损失函数 / 训练策略

  • MCM:基于扩散模型的去噪训练,随机选取motion segment作为生成目标
  • PTM预训练:PPO + AMP,严格重建奖励 + 早期终止,约2-3天(单卡A100)
  • TTA推理:日常动作 <500步或无需适应;高难度动作需2000-4000步

实验关键数据

主实验

公开数据集对比(Table 1 — 部分关键结果)

数据集 方法 WA-MJE↓ W-MJE↓ MPJPE↓ OKS↑ GP↓ Float↓ FS↓
AIST++ TRAM 106.2 159.5 91.8 0.945 20.6 490.0 2.35
AIST++ TRAM+PhysPT 136.8 218.3 93.6 0.903 4.08 22.7 2.07
AIST++ TRAM+Ours 106.2 157.7 94.0 0.953 0.50 1.97 0.59
AIST++ GVHMR 124.4 197.3 93.5 0.965 12.4 71.2 2.23
AIST++ GVHMR+Ours 123.4 193.8 94.0 0.963 0.50 1.98 0.59
Kungfu TRAM 113.4 209.7 84.6 0.925 4.32 40.9 2.57
Kungfu TRAM+Ours 113.3 193.7 79.5 0.931 0.24 5.71 0.26
EMDB GVHMR 109.1 274.9 252.2 0.954 82.3 510.3 0.69
EMDB GVHMR+Ours 91.2 261.6 249.1 0.948 0.25 3.63 0.17

野外高难度测试集(Table 2 — 206个视频)

方法 OKS↑ MPS↑ GP↓ Float↓ FS↓
TRAM 0.828 0.667 19.99 107.4 12.26
TRAM+PhysPT 0.730 0.645 7.88 39.4 6.01
TRAM+Ours 0.845 0.687 0.60 17.0 0.78
GVHMR 0.837 0.704 10.0 138.0 3.01
GVHMR+Ours 0.854 0.710 0.33 14.9 0.72

消融实验

PTM物理迁移能力(Table 3 — Kungfu数据集)

方法 成功率↑ MPJPEg↓ MPJPE↓ PA-MPJPE↓
UHC 42.91% 86.23 48.91 39.73
PHC+ 76.41% 84.86 47.98 39.43
PTM (Ours) 98.16% 82.13 33.45 26.12

TTA各组件消融(Table 4 — 野外高难度数据集)

Early-Term Res-F TTA Rela-Rwd OKS↑ MPS↑ SR↑
0.811 0.673 37%
0.784 0.652 52%
0.823 0.673 61%
0.850 0.706 85%
0.853 0.710 87%

MCM设置消融(Table 5)

In-between Mask条件 Kpts条件 Mask检测 Kpts检测 OKS↑ SR↑
- - - - 0.802 78%
- 0.834 83%
0.845 87%
0.853 87%

关键发现

  1. 物理真实性大幅提升:地面穿透从82.3降至0.25(EMDB-GVHMR),脚滑从12.26降至0.78(Wild-TRAM),自穿透降低50%+
  2. 保持原始运动模式:世界/相机坐标下的关节误差基本不增加,2D相似性甚至提升
  3. TTA是最大贡献者:成功率从61%(无TTA)提升至85%(启用TTA)
  4. 残差力对空中动作关键:弥补缺失的蹦床/垫子等环境支撑
  5. Mask优于关键点:作为条件信号更稳定(分割算法仅区分前后景,而关键点检测在模糊帧易失败)
  6. PhysPT反而降低某些指标:因为它简化了动力学方程且不理解高难度动作分布,导致世界坐标误差反而增大

亮点与洞察

  1. 即插即用设计:无需额外训练即可集成到任意视频动捕方法,极大降低使用门槛
  2. Pretrain + Adapt范式精妙:预训练积累运动先验 → TTA针对具体动作适应,天然解决长尾分布和灾难性遗忘问题
  3. 相对奖励/终止设计:认识到视频动捕输出本身不可靠,因此放弃绝对位置约束,转为相对约束,非常实用
  4. SAM分割+ViT特征:利用大模型的泛化能力弥补高难度场景下关键点检测的不足
  5. 收集206个高难度野外视频作为benchmark:包含艺术体操、跆拳道、瑜加等,填补评估空白
  6. 问题分析透彻:清楚区分"瑕疵动作"和"复杂动作模仿"两个独立问题,分别用MCM和PTM解决

局限性 / 可改进方向

  1. 仅支持单人动作,无法恢复近距离交互的多人运动
  2. TTA推理速度较慢:高难度动作需2000-4000步适应
  3. 残差力的使用在物理上不完全合理(本质上是外力辅助)
  4. MCM依赖SAM和目标检测的准确性
  5. 未考虑物体交互场景(已移除人-物交互数据)
  6. 相对奖励忽略绝对根位置,可能在长序列中产生漂移

相关工作与启发

  • PHC/PHC+:AMASS数据集上达97%+成功率的动作模仿控制器,但在高难度噪声动作上失败
  • PhysPT:预训练物理感知Transformer,但缺乏高难度运动的理解(无对应数据)
  • SimPoE:融合图像运动学和物理动力学,但对控制参数敏感
  • AMP:对抗式运动先验提供风格奖励
  • GVHMR/TRAM:最新视频动捕方法,本文作为其下游后处理

本文的pretrain+TTA模式可能启发其他需要泛化到分布外样本的机器人控制任务。

评分

  • 创新性:⭐⭐⭐⭐ — MCM(mask引导修正)和PTM(预训练+TTA)组合新颖,相对奖励设计有洞察
  • 实用性:⭐⭐⭐⭐⭐ — 即插即用,覆盖从日常到高难度动作
  • 实验:⭐⭐⭐⭐⭐ — 3个公开数据集+206个高难度野外视频,消融全面,与SOTA对比充分
  • 写作:⭐⭐⭐⭐ — 问题动机清晰,两个挑战→两个模块一一对应
  • 综合:8.5/10

相关论文