PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation¶

会议: CVPR 2026
arXiv: 2603.22193
代码: https://gasaiyu.github.io/PAM.github.io/
领域: 3D视觉 / 扩散模型 / 视频生成
关键词: 手物交互, sim-to-real, 可控视频生成, 扩散模型, 数据增强

一句话总结¶

提出PAM——首个仅需初始/目标手部姿态和物体几何即可生成逼真手物交互视频的引擎，通过解耦姿态生成、外观生成和运动生成三阶段，在DexYCB上FVD 29.13（vs InterDyn 38.83）、MPJPE 19.37mm（vs CosHand 30.05mm），生成的合成数据还能有效增强下游手部姿态估计任务。

研究背景与动机¶

领域现状：手物交互（HOI）的重建与合成在具身AI和AR/VR中越来越重要。数据驱动方法需要大规模标注HOI数据集，但人工标注成本极高限制了可扩展性。
现有痛点：当前HOI生成方法分为三个割裂的方向——(1) 姿态合成（如GraspXL）只预测MANO轨迹不生成像素；(2) 单图生成（如Affordance方法）从mask或2D线索生成外观但缺乏动态；(3) 视频生成方法（如InterDyn、ManiVideo）需要完整的姿态序列和真实首帧作为输入，无法实现真正的sim-to-real部署（因为模拟器没有真实首帧）。
核心矛盾：没有一个统一框架能同时处理姿态、外观和运动。特别是视频生成方法依赖真实首帧，这是sim-to-real链路的关键断点——模拟器只能产出几何和姿态数据，无法提供逼真的首帧图像。
本文目标：设计一个最小条件的HOI视频生成引擎——仅需初始和目标手部姿态+物体几何，即可生成逼真的时序一致的HOI视频，打通sim-to-real链路。
切入角度：将问题解耦为三个可分别优化的阶段：先用RL策略生成姿态序列，再用可控图像扩散模型生成首帧外观，最后用可控视频扩散模型生成完整视频。多模态条件（深度图、分割掩码、手部关键点）作为几何-语义-细节的三重约束。
核心 idea：通过三阶段解耦架构（姿态→外观→运动）和多模态条件控制，构建无需真实首帧的sim-to-real HOI视频生成引擎。

方法详解¶

整体框架¶

给定初始MANO手部姿态 \(\mathbf{h}_0\)、物体mesh \(\mathbf{m}\)、初始物体位姿 \(\mathbf{o}_0\) 和目标手部姿态 \(\mathbf{h}_T\)，生成模型 \(f_\theta: (\mathbf{h}_0, \mathbf{m}, \mathbf{o}_0, \mathbf{h}_T) \rightarrow \{I_t\}_{t=0}^T\) 输出逼真的视频序列。三阶段：(1) 姿态生成——用GraspXL预训练模型生成完整手物轨迹 \(\{\mathbf{h}_t, \mathbf{o}_t\}\)；(2) 外观生成——用Flux+ControlNet从多模态条件合成首帧 \(I_0\)；(3) 运动生成——用CogVideoX+ControlNet从首帧和条件序列生成整段视频。

关键设计¶

姿态生成阶段（Stage I）:
- 功能：从初始姿态和目标姿态生成中间的手物交互动态序列
- 核心思路：直接使用GraspXL预训练模型，输入初始手部姿态 \(\mathbf{h}_0\)、物体位姿 \(\mathbf{o}_0\) 和物体mesh \(\mathbf{m}\)，通过强化学习策略生成时序连贯的手物轨迹。GraspXL的优势是泛化性强，无需预定义参考抓取。
- 设计动机：RL方法在模拟器中能生成物理合理的交互数据，而不像监督学习方法那样受限于昂贵的人工标注数据。
外观生成阶段（Stage II）:
- 功能：从首帧的几何和姿态条件合成逼真的RGB首帧图像，替代不可得的真实首帧
- 核心思路：微调Flux图像扩散模型，配合ControlNet接入三种条件——深度图 \(D_0\)、分割掩码 \(S_0\)、手部关键点图 \(K_0\)（每个 \(H \times W \times 3\)）。条件经VAE编码为 \(\frac{H}{8} \times \frac{W}{8} \times 16\) 的latent后沿通道拼接，注入到DiT block的前两层（通过zero-convolution初始化），训练时只更新ControlNet参数。
- 设计动机：深度图提供全局几何信息，分割掩码提供语义信息，但仅靠这两者无法准确生成手部细节（手指数量、各指姿态等）。手部关键点作为第三种条件，显式约束手的结构，三者互补才能生成既几何准确又细节丰富的首帧。
运动生成阶段（Stage III）:
- 功能：将生成的首帧和姿态序列渲染为完整的视频序列
- 核心思路：以CogVideoX为基础视频扩散模型，同样配合ControlNet。将每帧的深度图、分割掩码和关键点图渲染出条件序列，经视频VAE编码为 \(\frac{T+1}{4} \times \frac{H}{8} \times \frac{W}{8} \times 16\) 的latent，沿通道维度拼接并注入CogVideoX的12个duplicate DiT block（同样用zero-convolution）。训练时每种条件以0.2的概率随机掩码，防止对单一模态的过度依赖。
- 设计动机：CogVideoX的时序attention天然保证帧间一致性（比CosHand的逐帧生成好得多）。条件与外观阶段一致（深度+分割+关键点），确保视频与首帧风格一致性。随机掩码训练提升鲁棒性和泛化性。

损失函数 / 训练策略¶

外观和运动阶段都使用标准扩散模型的去噪目标训练。外观阶段使用DexYCB的s0-split（6400训练/1600验证），运动阶段使用相同数据。ControlNet训练中仅更新ControlNet参数，保持基础模型权重冻结。

实验关键数据¶

主实验¶

DexYCB数据集对比：

方法	FVD↓	MF↑	LPIPS↓	SSIM↑	PSNR↑	MPJPE↓(mm)	分辨率
CosHand	58.51	0.591	0.139	0.767	23.20	30.05	256×256
InterDyn	38.83	0.680	0.119	0.848	24.86	-	256×384
PAM(all)	29.13	0.712	0.069	0.914	30.17	19.37	480×720

OAKINK2数据集：FVD从CosHand的68.76降至46.31，MPJPE从14.49降至7.01。

消融实验（条件组合，DexYCB）¶

条件配置	FVD↓	MF↑	MPJPE↓(mm)	说明
Seg only	33.23	0.695	21.14	仅分割掩码
Depth only	30.00	0.703	23.16	仅深度图
Hand only	33.41	0.713	20.70	仅关键点，MPJPE最低但其他差
Depth+Seg	29.32	0.712	22.51	几何+语义
All three	29.13	0.712	19.37	三条件最优

关键发现¶

三条件组合全面最优——关键点单独使MPJPE最低（显式姿态约束）但外观质量差，深度图和分割提供全局上下文，三者互补
下游任务验证：用生成的3400条视频（207k帧）增强训练，50%真实数据+全部生成数据即可匹配100%真实数据基线（PA-MPJPE: 5.5 vs 5.5），证明合成数据实用价值
零样本跨数据集：DexYCB训练的模型直接在OAKINK2（双手交互）上仍能生成合理结果，得益于预训练视频扩散模型的泛化能力
相比CosHand（仅靠手部mask条件），多条件+视频扩散base model带来全方位提升

亮点与洞察¶

解耦三阶段设计：姿态/外观/运动分别优化，各取所长（RL生成物理合理姿态，扩散模型生成逼真外观和动态），避免了端到端训练的困难。这种解耦思路可迁移到其他sim-to-real生成任务
无需真实首帧：之前的方法都需要ground-truth首帧，本文通过外观生成阶段替代，首次实现了真正的simulator→real video的完整链路
合成数据的下游价值：不只评生成质量，还验证了生成视频作为训练数据增强下游任务的实际效果，50%真实数据+合成即达100%真实基线

局限与展望¶

依赖GraspXL的姿态生成质量，如果姿态不合理则下游视频也不合理
三阶段串联的误差可能累积（姿态不准→条件渲染不准→视频质量下降）
目前仅处理单手-单物体场景，双手或多物体交互需要扩展框架
外观生成的多样性受限于Flux和ControlNet的能力，复杂背景和光照变化可能不足
未来可探索将三阶段统一为端到端模型，减少中间步骤的信息损失

评分¶

新颖性: ⭐⭐⭐⭐ 三阶段解耦框架+多模态条件控制的设计虽然各组件不新，但组合方式和"无需首帧"的目标定位有创新
实验充分度: ⭐⭐⭐⭐⭐ DexYCB+OAKINK2两个数据集，条件消融、下游验证、零样本迁移，实验非常扎实
写作质量: ⭐⭐⭐⭐ 图示清晰，问题定义明确
价值: ⭐⭐⭐⭐⭐ 对具身AI的合成数据生成有很高实用价值，证明了sim-to-real HOI视频生成的可行性