跳转至

PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation

会议: CVPR 2026
arXiv: 2603.22193
代码: https://gasaiyu.github.io/PAM.github.io/
领域: 3D视觉 / 扩散模型 / 视频生成
关键词: 手物交互, sim-to-real, 可控视频生成, 扩散模型, 数据增强

一句话总结

提出PAM——首个仅需初始/目标手部姿态和物体几何即可生成逼真手物交互视频的引擎,通过解耦姿态生成、外观生成和运动生成三阶段,在DexYCB上FVD 29.13(vs InterDyn 38.83)、MPJPE 19.37mm(vs CosHand 30.05mm),生成的合成数据还能有效增强下游手部姿态估计任务。

研究背景与动机

  1. 领域现状:手物交互(HOI)的重建与合成在具身AI和AR/VR中越来越重要。数据驱动方法需要大规模标注HOI数据集,但人工标注成本极高限制了可扩展性。

  2. 现有痛点:当前HOI生成方法分为三个割裂的方向——(1) 姿态合成(如GraspXL)只预测MANO轨迹不生成像素;(2) 单图生成(如Affordance方法)从mask或2D线索生成外观但缺乏动态;(3) 视频生成方法(如InterDyn、ManiVideo)需要完整的姿态序列和真实首帧作为输入,无法实现真正的sim-to-real部署(因为模拟器没有真实首帧)。

  3. 核心矛盾:没有一个统一框架能同时处理姿态、外观和运动。特别是视频生成方法依赖真实首帧,这是sim-to-real链路的关键断点——模拟器只能产出几何和姿态数据,无法提供逼真的首帧图像。

  4. 本文目标:设计一个最小条件的HOI视频生成引擎——仅需初始和目标手部姿态+物体几何,即可生成逼真的时序一致的HOI视频,打通sim-to-real链路。

  5. 切入角度:将问题解耦为三个可分别优化的阶段:先用RL策略生成姿态序列,再用可控图像扩散模型生成首帧外观,最后用可控视频扩散模型生成完整视频。多模态条件(深度图、分割掩码、手部关键点)作为几何-语义-细节的三重约束。

  6. 核心 idea:通过三阶段解耦架构(姿态→外观→运动)和多模态条件控制,构建无需真实首帧的sim-to-real HOI视频生成引擎。

方法详解

整体框架

给定初始MANO手部姿态 \(\mathbf{h}_0\)、物体mesh \(\mathbf{m}\)、初始物体位姿 \(\mathbf{o}_0\) 和目标手部姿态 \(\mathbf{h}_T\),生成模型 \(f_\theta: (\mathbf{h}_0, \mathbf{m}, \mathbf{o}_0, \mathbf{h}_T) \rightarrow \{I_t\}_{t=0}^T\) 输出逼真的视频序列。三阶段:(1) 姿态生成——用GraspXL预训练模型生成完整手物轨迹 \(\{\mathbf{h}_t, \mathbf{o}_t\}\);(2) 外观生成——用Flux+ControlNet从多模态条件合成首帧 \(I_0\);(3) 运动生成——用CogVideoX+ControlNet从首帧和条件序列生成整段视频。

关键设计

  1. 姿态生成阶段(Stage I):

    • 功能:从初始姿态和目标姿态生成中间的手物交互动态序列
    • 核心思路:直接使用GraspXL预训练模型,输入初始手部姿态 \(\mathbf{h}_0\)、物体位姿 \(\mathbf{o}_0\) 和物体mesh \(\mathbf{m}\),通过强化学习策略生成时序连贯的手物轨迹。GraspXL的优势是泛化性强,无需预定义参考抓取。
    • 设计动机:RL方法在模拟器中能生成物理合理的交互数据,而不像监督学习方法那样受限于昂贵的人工标注数据。
  2. 外观生成阶段(Stage II):

    • 功能:从首帧的几何和姿态条件合成逼真的RGB首帧图像,替代不可得的真实首帧
    • 核心思路:微调Flux图像扩散模型,配合ControlNet接入三种条件——深度图 \(D_0\)、分割掩码 \(S_0\)、手部关键点图 \(K_0\)(每个 \(H \times W \times 3\))。条件经VAE编码为 \(\frac{H}{8} \times \frac{W}{8} \times 16\) 的latent后沿通道拼接,注入到DiT block的前两层(通过zero-convolution初始化),训练时只更新ControlNet参数。
    • 设计动机:深度图提供全局几何信息,分割掩码提供语义信息,但仅靠这两者无法准确生成手部细节(手指数量、各指姿态等)。手部关键点作为第三种条件,显式约束手的结构,三者互补才能生成既几何准确又细节丰富的首帧。
  3. 运动生成阶段(Stage III):

    • 功能:将生成的首帧和姿态序列渲染为完整的视频序列
    • 核心思路:以CogVideoX为基础视频扩散模型,同样配合ControlNet。将每帧的深度图、分割掩码和关键点图渲染出条件序列,经视频VAE编码为 \(\frac{T+1}{4} \times \frac{H}{8} \times \frac{W}{8} \times 16\) 的latent,沿通道维度拼接并注入CogVideoX的12个duplicate DiT block(同样用zero-convolution)。训练时每种条件以0.2的概率随机掩码,防止对单一模态的过度依赖。
    • 设计动机:CogVideoX的时序attention天然保证帧间一致性(比CosHand的逐帧生成好得多)。条件与外观阶段一致(深度+分割+关键点),确保视频与首帧风格一致性。随机掩码训练提升鲁棒性和泛化性。

损失函数 / 训练策略

外观和运动阶段都使用标准扩散模型的去噪目标训练。外观阶段使用DexYCB的s0-split(6400训练/1600验证),运动阶段使用相同数据。ControlNet训练中仅更新ControlNet参数,保持基础模型权重冻结。

实验关键数据

主实验

DexYCB数据集对比:

方法 FVD↓ MF↑ LPIPS↓ SSIM↑ PSNR↑ MPJPE↓(mm) 分辨率
CosHand 58.51 0.591 0.139 0.767 23.20 30.05 256×256
InterDyn 38.83 0.680 0.119 0.848 24.86 - 256×384
PAM(all) 29.13 0.712 0.069 0.914 30.17 19.37 480×720

OAKINK2数据集:FVD从CosHand的68.76降至46.31,MPJPE从14.49降至7.01。

消融实验(条件组合,DexYCB)

条件配置 FVD↓ MF↑ MPJPE↓(mm) 说明
Seg only 33.23 0.695 21.14 仅分割掩码
Depth only 30.00 0.703 23.16 仅深度图
Hand only 33.41 0.713 20.70 仅关键点,MPJPE最低但其他差
Depth+Seg 29.32 0.712 22.51 几何+语义
All three 29.13 0.712 19.37 三条件最优

关键发现

  • 三条件组合全面最优——关键点单独使MPJPE最低(显式姿态约束)但外观质量差,深度图和分割提供全局上下文,三者互补
  • 下游任务验证:用生成的3400条视频(207k帧)增强训练,50%真实数据+全部生成数据即可匹配100%真实数据基线(PA-MPJPE: 5.5 vs 5.5),证明合成数据实用价值
  • 零样本跨数据集:DexYCB训练的模型直接在OAKINK2(双手交互)上仍能生成合理结果,得益于预训练视频扩散模型的泛化能力
  • 相比CosHand(仅靠手部mask条件),多条件+视频扩散base model带来全方位提升

亮点与洞察

  • 解耦三阶段设计:姿态/外观/运动分别优化,各取所长(RL生成物理合理姿态,扩散模型生成逼真外观和动态),避免了端到端训练的困难。这种解耦思路可迁移到其他sim-to-real生成任务
  • 无需真实首帧:之前的方法都需要ground-truth首帧,本文通过外观生成阶段替代,首次实现了真正的simulator→real video的完整链路
  • 合成数据的下游价值:不只评生成质量,还验证了生成视频作为训练数据增强下游任务的实际效果,50%真实数据+合成即达100%真实基线

局限与展望

  • 依赖GraspXL的姿态生成质量,如果姿态不合理则下游视频也不合理
  • 三阶段串联的误差可能累积(姿态不准→条件渲染不准→视频质量下降)
  • 目前仅处理单手-单物体场景,双手或多物体交互需要扩展框架
  • 外观生成的多样性受限于Flux和ControlNet的能力,复杂背景和光照变化可能不足
  • 未来可探索将三阶段统一为端到端模型,减少中间步骤的信息损失

相关工作与启发

  • vs InterDyn: InterDyn用ControlNet接手部mask序列做视频生成,但条件利用不充分且需要真实首帧。本文多条件+无需首帧,FVD从38.83降至29.13
  • vs CosHand: CosHand仅用手部mask做conditioning,缺乏显式时序建模,逐帧生成导致帧间不一致。本文用视频扩散基础模型+时序attention保证连贯性
  • vs ManiVideo: ManiVideo引入遮挡感知表示但需要人体外观数据(模拟器无法提供),不适用于sim-to-real

评分

  • 新颖性: ⭐⭐⭐⭐ 三阶段解耦框架+多模态条件控制的设计虽然各组件不新,但组合方式和"无需首帧"的目标定位有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ DexYCB+OAKINK2两个数据集,条件消融、下游验证、零样本迁移,实验非常扎实
  • 写作质量: ⭐⭐⭐⭐ 图示清晰,问题定义明确
  • 价值: ⭐⭐⭐⭐⭐ 对具身AI的合成数据生成有很高实用价值,证明了sim-to-real HOI视频生成的可行性

相关论文