PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation¶
会议: CVPR 2026
arXiv: 2603.22193
代码: https://gasaiyu.github.io/PAM.github.io/
领域: 3D视觉 / 扩散模型 / 视频生成
关键词: 手物交互, sim-to-real, 可控视频生成, 扩散模型, 数据增强
一句话总结¶
提出PAM——首个仅需初始/目标手部姿态和物体几何即可生成逼真手物交互视频的引擎,通过解耦姿态生成、外观生成和运动生成三阶段,在DexYCB上FVD 29.13(vs InterDyn 38.83)、MPJPE 19.37mm(vs CosHand 30.05mm),生成的合成数据还能有效增强下游手部姿态估计任务。
研究背景与动机¶
-
领域现状:手物交互(HOI)的重建与合成在具身AI和AR/VR中越来越重要。数据驱动方法需要大规模标注HOI数据集,但人工标注成本极高限制了可扩展性。
-
现有痛点:当前HOI生成方法分为三个割裂的方向——(1) 姿态合成(如GraspXL)只预测MANO轨迹不生成像素;(2) 单图生成(如Affordance方法)从mask或2D线索生成外观但缺乏动态;(3) 视频生成方法(如InterDyn、ManiVideo)需要完整的姿态序列和真实首帧作为输入,无法实现真正的sim-to-real部署(因为模拟器没有真实首帧)。
-
核心矛盾:没有一个统一框架能同时处理姿态、外观和运动。特别是视频生成方法依赖真实首帧,这是sim-to-real链路的关键断点——模拟器只能产出几何和姿态数据,无法提供逼真的首帧图像。
-
本文目标:设计一个最小条件的HOI视频生成引擎——仅需初始和目标手部姿态+物体几何,即可生成逼真的时序一致的HOI视频,打通sim-to-real链路。
-
切入角度:将问题解耦为三个可分别优化的阶段:先用RL策略生成姿态序列,再用可控图像扩散模型生成首帧外观,最后用可控视频扩散模型生成完整视频。多模态条件(深度图、分割掩码、手部关键点)作为几何-语义-细节的三重约束。
-
核心 idea:通过三阶段解耦架构(姿态→外观→运动)和多模态条件控制,构建无需真实首帧的sim-to-real HOI视频生成引擎。
方法详解¶
整体框架¶
给定初始MANO手部姿态 \(\mathbf{h}_0\)、物体mesh \(\mathbf{m}\)、初始物体位姿 \(\mathbf{o}_0\) 和目标手部姿态 \(\mathbf{h}_T\),生成模型 \(f_\theta: (\mathbf{h}_0, \mathbf{m}, \mathbf{o}_0, \mathbf{h}_T) \rightarrow \{I_t\}_{t=0}^T\) 输出逼真的视频序列。三阶段:(1) 姿态生成——用GraspXL预训练模型生成完整手物轨迹 \(\{\mathbf{h}_t, \mathbf{o}_t\}\);(2) 外观生成——用Flux+ControlNet从多模态条件合成首帧 \(I_0\);(3) 运动生成——用CogVideoX+ControlNet从首帧和条件序列生成整段视频。
关键设计¶
-
姿态生成阶段(Stage I):
- 功能:从初始姿态和目标姿态生成中间的手物交互动态序列
- 核心思路:直接使用GraspXL预训练模型,输入初始手部姿态 \(\mathbf{h}_0\)、物体位姿 \(\mathbf{o}_0\) 和物体mesh \(\mathbf{m}\),通过强化学习策略生成时序连贯的手物轨迹。GraspXL的优势是泛化性强,无需预定义参考抓取。
- 设计动机:RL方法在模拟器中能生成物理合理的交互数据,而不像监督学习方法那样受限于昂贵的人工标注数据。
-
外观生成阶段(Stage II):
- 功能:从首帧的几何和姿态条件合成逼真的RGB首帧图像,替代不可得的真实首帧
- 核心思路:微调Flux图像扩散模型,配合ControlNet接入三种条件——深度图 \(D_0\)、分割掩码 \(S_0\)、手部关键点图 \(K_0\)(每个 \(H \times W \times 3\))。条件经VAE编码为 \(\frac{H}{8} \times \frac{W}{8} \times 16\) 的latent后沿通道拼接,注入到DiT block的前两层(通过zero-convolution初始化),训练时只更新ControlNet参数。
- 设计动机:深度图提供全局几何信息,分割掩码提供语义信息,但仅靠这两者无法准确生成手部细节(手指数量、各指姿态等)。手部关键点作为第三种条件,显式约束手的结构,三者互补才能生成既几何准确又细节丰富的首帧。
-
运动生成阶段(Stage III):
- 功能:将生成的首帧和姿态序列渲染为完整的视频序列
- 核心思路:以CogVideoX为基础视频扩散模型,同样配合ControlNet。将每帧的深度图、分割掩码和关键点图渲染出条件序列,经视频VAE编码为 \(\frac{T+1}{4} \times \frac{H}{8} \times \frac{W}{8} \times 16\) 的latent,沿通道维度拼接并注入CogVideoX的12个duplicate DiT block(同样用zero-convolution)。训练时每种条件以0.2的概率随机掩码,防止对单一模态的过度依赖。
- 设计动机:CogVideoX的时序attention天然保证帧间一致性(比CosHand的逐帧生成好得多)。条件与外观阶段一致(深度+分割+关键点),确保视频与首帧风格一致性。随机掩码训练提升鲁棒性和泛化性。
损失函数 / 训练策略¶
外观和运动阶段都使用标准扩散模型的去噪目标训练。外观阶段使用DexYCB的s0-split(6400训练/1600验证),运动阶段使用相同数据。ControlNet训练中仅更新ControlNet参数,保持基础模型权重冻结。
实验关键数据¶
主实验¶
DexYCB数据集对比:
| 方法 | FVD↓ | MF↑ | LPIPS↓ | SSIM↑ | PSNR↑ | MPJPE↓(mm) | 分辨率 |
|---|---|---|---|---|---|---|---|
| CosHand | 58.51 | 0.591 | 0.139 | 0.767 | 23.20 | 30.05 | 256×256 |
| InterDyn | 38.83 | 0.680 | 0.119 | 0.848 | 24.86 | - | 256×384 |
| PAM(all) | 29.13 | 0.712 | 0.069 | 0.914 | 30.17 | 19.37 | 480×720 |
OAKINK2数据集:FVD从CosHand的68.76降至46.31,MPJPE从14.49降至7.01。
消融实验(条件组合,DexYCB)¶
| 条件配置 | FVD↓ | MF↑ | MPJPE↓(mm) | 说明 |
|---|---|---|---|---|
| Seg only | 33.23 | 0.695 | 21.14 | 仅分割掩码 |
| Depth only | 30.00 | 0.703 | 23.16 | 仅深度图 |
| Hand only | 33.41 | 0.713 | 20.70 | 仅关键点,MPJPE最低但其他差 |
| Depth+Seg | 29.32 | 0.712 | 22.51 | 几何+语义 |
| All three | 29.13 | 0.712 | 19.37 | 三条件最优 |
关键发现¶
- 三条件组合全面最优——关键点单独使MPJPE最低(显式姿态约束)但外观质量差,深度图和分割提供全局上下文,三者互补
- 下游任务验证:用生成的3400条视频(207k帧)增强训练,50%真实数据+全部生成数据即可匹配100%真实数据基线(PA-MPJPE: 5.5 vs 5.5),证明合成数据实用价值
- 零样本跨数据集:DexYCB训练的模型直接在OAKINK2(双手交互)上仍能生成合理结果,得益于预训练视频扩散模型的泛化能力
- 相比CosHand(仅靠手部mask条件),多条件+视频扩散base model带来全方位提升
亮点与洞察¶
- 解耦三阶段设计:姿态/外观/运动分别优化,各取所长(RL生成物理合理姿态,扩散模型生成逼真外观和动态),避免了端到端训练的困难。这种解耦思路可迁移到其他sim-to-real生成任务
- 无需真实首帧:之前的方法都需要ground-truth首帧,本文通过外观生成阶段替代,首次实现了真正的simulator→real video的完整链路
- 合成数据的下游价值:不只评生成质量,还验证了生成视频作为训练数据增强下游任务的实际效果,50%真实数据+合成即达100%真实基线
局限与展望¶
- 依赖GraspXL的姿态生成质量,如果姿态不合理则下游视频也不合理
- 三阶段串联的误差可能累积(姿态不准→条件渲染不准→视频质量下降)
- 目前仅处理单手-单物体场景,双手或多物体交互需要扩展框架
- 外观生成的多样性受限于Flux和ControlNet的能力,复杂背景和光照变化可能不足
- 未来可探索将三阶段统一为端到端模型,减少中间步骤的信息损失
相关工作与启发¶
- vs InterDyn: InterDyn用ControlNet接手部mask序列做视频生成,但条件利用不充分且需要真实首帧。本文多条件+无需首帧,FVD从38.83降至29.13
- vs CosHand: CosHand仅用手部mask做conditioning,缺乏显式时序建模,逐帧生成导致帧间不一致。本文用视频扩散基础模型+时序attention保证连贯性
- vs ManiVideo: ManiVideo引入遮挡感知表示但需要人体外观数据(模拟器无法提供),不适用于sim-to-real
评分¶
- 新颖性: ⭐⭐⭐⭐ 三阶段解耦框架+多模态条件控制的设计虽然各组件不新,但组合方式和"无需首帧"的目标定位有创新
- 实验充分度: ⭐⭐⭐⭐⭐ DexYCB+OAKINK2两个数据集,条件消融、下游验证、零样本迁移,实验非常扎实
- 写作质量: ⭐⭐⭐⭐ 图示清晰,问题定义明确
- 价值: ⭐⭐⭐⭐⭐ 对具身AI的合成数据生成有很高实用价值,证明了sim-to-real HOI视频生成的可行性
相关论文¶
- [CVPR 2026] PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation
- [ICLR 2026] MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling
- [CVPR 2026] StreamDiT: Real-Time Streaming Text-to-Video Generation
- [ICLR 2026] MotionStream: Real-Time Video Generation with Interactive Motion Controls
- [CVPR 2026] PerformRecast: Expression and Head Pose Disentanglement for Portrait Video Editing