跳转至

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

会议: CVPR 2026
arXiv: 2603.13228
代码: 无(暂未公开)
领域: 人体运动生成 / 具身智能 / 强化学习对齐
关键词: 扩散运动生成, DPO偏好优化, 物理仿真, 人形机器人, 零样本迁移

一句话总结

提出PhysMoDPO,将预训练的全身控制器(WBC/DeepMimic)集成到扩散运动生成器的后训练流程中,通过物理仿真自动构造偏好对并用DPO微调,使生成运动在WBC执行后同时满足物理可行性和文本/空间条件忠实度,实现零样本迁移到Unitree G1真实机器人。

背景与动机

文本驱动的人体运动生成近年依托扩散模型取得大幅进展,但存在一个核心矛盾:扩散模型在运动学空间中训练和评估(关注分布相似性和条件对齐),而机器人部署需要运动在动力学约束下可行(脚不打滑、重心在支撑面内、满足摩擦力约束等)。当前的部署方案是通过全身控制器(WBC,如DeepMimic)将生成运动转化为物理可执行轨迹——但WBC可能大幅修改运动以满足物理约束,导致实际执行的轨迹偏离文本意图。现有的物理增强方案要么依赖手工物理损失(如滑脚惩罚)做测试时优化,可能破坏运动分布;要么用手工reward做RL微调(如ReinDiffuse用PPO、HY-Motion用GRPO),但手工heuristic难以覆盖复杂的动力学性质(如异常质心位置)。因此需要一种能直接利用物理仿真器作为奖励信号源的自动化后训练框架。

核心问题

如何在不引入手工物理heuristic的前提下,自动化地微调扩散运动生成器,使其输出在经过WBC物理仿真执行后,既满足物理约束(不摔倒、不打滑),又保持对输入文本/空间条件的忠实度?

方法详解

整体框架

PhysMoDPO是一个"生成-仿真-评估-微调"的迭代循环: 1. 对每个条件C(文本或文本+空间约束),利用扩散生成器的随机性采样K个候选运动 \(X_k = G_\theta(\epsilon_k, C)\) 2. 每个候选经固定的WBC(DeepMimic)在物理仿真中执行,得到物理可行轨迹 \(X'_k = \mathcal{T}(X_k)\) 3. 在仿真后的轨迹 \(X'_k\) 上计算物理奖励和任务奖励 4. 根据奖励构造偏好对 \((X_{win}, X_{lose})\),用DPO损失微调生成器 5. 迭代:用更新后的生成器重新采样,重新构造偏好对

关键洞察:评估在物理空间进行,但DPO训练作用于运动学空间的样本对——这尊重了DPO要求数据来自模型自身的采样这一前提。

关键设计

  1. 物理算子 \(\mathcal{T}\) 作为黑盒奖励源: 用预训练的DeepMimic追踪控制器在仿真中执行生成运动。追踪失真 \(\Delta(X) = \|X' - X\|^2\) 直接衡量运动的物理可行性——失真越小说明运动本身越接近物理可行空间 \(\mathcal{X}_{phys}\)。将 \(\mathcal{T}\) 视为不可微的黑盒,避免了对仿真器求导的困难。
  2. 四类奖励函数的组合:
  3. \(\mathcal{R}_{track}\):追踪奖励,最小化仿真前后运动的差异
  4. \(\mathcal{R}_{slide}\):滑脚惩罚,当脚高度低于阈值(0.05m)且水平速度超过阈值(0.5m/s)时惩罚
  5. \(\mathcal{R}_{M2T}\):文本-运动一致性,用预训练TMR编码器计算仿真后运动与文本的余弦相似度
  6. \(\mathcal{R}_{control}\):空间控制奖励(仅在有空间约束时),衡量关节轨迹与目标的匹配度
  7. 基于支配关系的偏好对构造: 不做奖励加权求和(会引入权重敏感性和reward hacking),而是要求获胜样本在所有奖励维度都优于失败样本(strict dominance),避免了多目标奖励工程。
  8. 迭代式生成-微调循环: 每轮用更新后的模型重新生成候选、构造新的偏好对。3轮迭代效果最佳,逐步聚焦于当前模型的物理薄弱环节。
  9. SMPL表示替代HumanML3D: 直接用SMPL关节旋转表示训练,避免了HumanML3D格式转SMPL时昂贵的逆运动学计算,方便下游机器人部署。

损失函数 / 训练策略

总损失 \(\mathcal{L} = \mathcal{L}_{DPO}(X_{win}, X_{lose}) + \lambda_{SFT} \mathcal{L}_{SFT}(X_{win})\)

  • \(\mathcal{L}_{DPO}\):标准Diffusion-DPO目标,鼓励模型更多采样类似 \(X_{win}\) 的运动
  • \(\mathcal{L}_{SFT}\):仅在获胜样本上的监督微调损失(Two-Forward策略),防止偏好优化漂移、保持生成质量
  • 文本任务:\(\lambda_{SFT}=1\)\(\beta=5\),lr=1e-6,batch=32,5000步,仅更新扩散头
  • 空间控制任务:\(\lambda_{SFT}=2\)\(\beta=20\),batch=64,4000步
  • 每个文本提示采样12个候选运动

实验关键数据

文本到运动(HumanML3D, SMPL仿真后评估)

方法 R@3↑ FID↓ Jerk↓
MaskedMimic 0.6305 73.79 66.08
MotionStreamer 0.8310 46.75
SFT baseline 49.22 48.30
PhysMoDPO 0.8517 43.60

空间-文本控制(HumanML3D, SMPL仿真后评估, cross-control)

方法 Err.↓ FID↓ Jerk↓
OmniControl (original) 0.1998 5.82 115.12
OmniControl (cross) 0.75 64.07
PhysMoDPO 0.1298 0.93 62.31

G1机器人零样本迁移(文本到运动)

方法 M2T↑ R@3↑ FID↓
MaskedMimic 0.7156 0.5761 0.3673
MotionStreamer
PhysMoDPO

消融实验要点

  • 迭代轮次:1轮→3轮,Err从0.1421降至0.1298,FID从1.17降至0.93,Jerk从72.13降至62.31,验证了迭代微调的持续收益
  • 奖励组合:仅tracking→+control→+sliding→+M2T逐步改善。仅tracking会鼓励保守运动导致训练不稳定;加入M2T后略增Jerk(因为鼓励更动态的语义动作),但整体真实性和对齐性提升
  • 偏好对构造策略:strict dominance显著优于加权分数融合(fuse score),后者对权重敏感且易hack
  • SFT损失权重\(\lambda_{SFT}=2\) 最优;\(\lambda_{SFT}=0\)时控制精度和生成质量退化;过大(5/10)时削弱DPO收益
  • DPO温度 \(\beta\)\(\beta=20\) 最优;\(\beta=1\)改善有限;\(\beta=50\)过度更新导致FID和Jerk恶化
  • 数据表示:SMPL表示比HumanML3D格式在空间可控性和FID上更优(虽然文本对齐略降),且无需逆运动学
  • 数据规模:20%数据即可获得合理性能,验证了方法的样本效率

亮点

  • 核心创新点明确:把物理仿真器作为不可微的黑盒奖励源,通过DPO偏好学习绕开求导困难——这比手工物理heuristic奖励更全面(自动覆盖动力学、接触、平衡等),比可微物理仿真更实用
  • evaluation in deployed space:所有评估指标都在WBC执行后的物理空间计算,而非运动学空间,这直接度量了部署性能,揭示了之前方法"运动学指标好但物理执行差"的盲区
  • strict dominance偏好对构造:多目标奖励下不做加权求和,要求全部维度都胜出才算win,消除了reward engineering和hacking问题。这个策略简单有效,可迁移到其他多目标DPO场景
  • 零样本跨body迁移成功:在SMPL上训练的PhysMoDPO零样本迁移到G1和H1机器人均有效,证明了物理兼容性的泛化能力
  • 迭代DPO的有效性:每轮用新模型重新采样构造偏好对,逐步改进,3轮即达饱和

局限性 / 可改进方向

  • 仅在平坦地面上验证,未扩展到复杂地形(台阶、斜坡、不平整表面)
  • 依赖固定的DeepMimic追踪策略,其自身偏差会传递到偏好对构造中——理想方案是用多个不同WBC或人类评估来减少评估偏差
  • 过滤了需要物体支撑的运动(如上楼梯),限制了应用范围
  • DPO微调期间生成器参数更新有限(仅扩散头),未探索全参数微调或LoRA等策略
  • 用户研究仅20人、40视频对,规模偏小

与相关工作的对比

  • vs ReinDiffuse/HY-Motion:同样微调运动生成器,但它们用手工heuristic(浮空/滑脚)做PPO/GRPO奖励,难以覆盖质心异常等复杂物理问题。PhysMoDPO用仿真器直接产出物理轨迹,奖励信号更全面。且DPO比PPO更稳定高效。
  • vs MaskedMimic:端到端物理策略,虽然物理合规但文本遵循差(R@3仅0.6305 vs PhysMoDPO 0.8517),说明直接在大规模自然语言上学控制策略仍很困难。
  • vs PhysPT/PhysDiff/Zhang等约束投影方法:在推理时或采样时施加物理约束,可能改变输出分布。PhysMoDPO在训练阶段内化物理知识,推理时无需额外优化,更高效。
  • vs Morph:用物理模型精炼数据再微调,但生成器噪声过大时可能反过来伤害物理模型。PhysMoDPO仅用物理模型计算奖励,不修改物理模型本身。

启发与关联

  • DPO在连续控制中的应用范式:本文将LLM对齐中的DPO方法成功迁移到运动生成领域,核心pattern是"不可微评估器 + 偏好对 + DPO"——这个范式可推广到任何需要与不可微仿真器/渲染器对齐的生成任务(如可微渲染差的场景下的3D生成)
  • strict dominance规则的通用性:多目标DPO中避免奖励加权的思路值得借鉴
  • "deployed space evaluation"的哲学:不在生成空间评估而是在部署空间评估——这个思路可迁移到其他生成+执行的pipeline(如代码生成→编译执行、文本到图片→渲染)

评分

  • 新颖性: ⭐⭐⭐⭐ 将仿真器作为黑盒奖励源做DPO的思路新颖且自然,strict dominance偏好构造有独到之处
  • 实验充分度: ⭐⭐⭐⭐⭐ SMPL+G1+H1三种body验证,文本和空间控制两种任务,真实机器人部署+用户研究,消融非常详尽
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰(运动学空间vs物理空间),公式化严谨,实验组织好
  • 价值: ⭐⭐⭐⭐ 为运动生成的物理可行性提供了系统化解决方案,对具身AI社区有直接推动
  • 新颖性: ⭐⭐⭐
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐
  • 对我的价值: ⭐⭐⭐