ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping¶

会议: CVPR 2025
arXiv: 2412.16212
代码: 待确认
领域: 3d_vision
关键词: hand-object interaction, video generation, multi-layer occlusion, diffusion model, Objaverse

一句话总结¶

提出多层遮挡（MLO）表示学习 3D 手-物遮挡关系，并将 Objaverse 大规模 3D 物体数据整合进训练，实现首个支持灵巧双手操作 + 可泛化物体外观的手-物操作视频生成框架。

研究背景与动机¶

领域现状: 基于扩散模型的手-物体交互（HOI）图像生成已取得初步成功，方法通常利用深度图、法线图、手部骨架等 2D 条件信号引导生成。

现有痛点: 1. 遮挡关系建模不足: 现有方法只依赖 2D 条件信号，无法处理手指间自遮挡和手-物互相遮挡，导致生成结果出现穿透伪影和结构错误。 2. 物体泛化能力差: HOI 视频数据集通常只包含十余种物体类别，训练后的模型难以泛化到训练集外的多样化物体。 3. 视频时序一致性: 从图像到视频的扩展需要额外的时序一致性机制。

核心矛盾: 手部有极高的自由度和精细的关节结构，2D 条件信号是病态问题，无法唯一确定 3D 遮挡关系；同时 HOI 视频数据极度稀缺。

本文切入角度: 设计 3D 感知的 MLO 表示替代 2D 条件信号，同时引入 Objaverse 解决数据稀缺问题，通过多数据集联合训练策略统一学习。

方法详解¶

整体框架¶

ManiVideo 基于条件扩散模型，输入为双手 MANO 模型参数 \((θ,β)\) 和物体 3D 模型的运动序列，输出为时序一致的手-物操作视频。流程包括： 1. 将原始手-物信号转换为 MLO 表示（遮挡无关法线图 + 遮挡置信图）和物体表示（外观 + 几何） 2. 将 MLO 表示以两种方式嵌入 UNet（初始噪声 + Transformer block） 3. 将物体表示通过 AppearanceNet 和几何 embedding 注入 UNet 4. 两阶段训练：图像阶段 → 时序阶段

关键设计¶

1. 多层遮挡（MLO）表示 - 功能: 将手-物 3D 模型分解为多个独立层（物体、掌心、拇指、食指、中指、无名指、小指），每层独立渲染遮挡无关法线图 \(H\)，补偿被遮挡的隐藏区域。 - 核心思路: 受多平面图像（MPI）启发，构建从远到近的多层 3D 结构。同时引入遮挡置信图 \(D\)（基于深度图），深色区域表示遮挡越严重。模型通过 \(D\) 区分可见/隐藏区域，利用 \(H\) 修复被遮挡部分。 - 设计动机: 2D 条件信号（深度图、mask 等）是病态输入，无法表示手指密集排列时的遮挡关系。MLO 提供完整的 3D 视角，使模型能感知被遮挡手指的几何。

2. MLO 的双重嵌入 - 功能: 将 MLO 结构以两种方式注入 UNet：(a) 通过 Pose Guider（4层卷积）提取 \(H\) 的特征并加到初始噪声 \(z_t' = z_t + G([H])\)；(b) 将 \(H\) 和 \(D\) 拼接后经卷积+MLP 提取 embedding \(E_F\)，通过交叉注意力注入 Transformer block。 - 核心思路: 初始层学习粗粒度空间对应，深层 Transformer block 感知复杂遮挡关系。 - 设计动机: 消融实验表明仅使用单一嵌入方式（w/o MLO*）会导致穿透伪影，双重嵌入互补地利用 MLO 信息。

3. 物体表示与 Objaverse 集成 - 功能: 为每个 Objaverse 物体渲染 6 视角外观图像 \(O_I\)，加上背景参考图 \(O_B\)，通过 AppearanceNet \(R\) 注入 UNet。同时渲染物体法线图 \(H_o\) 并采样点云 \(P \in \mathbb{R}^{2048 \times 3}\)，提取几何 embedding \(E_N\) 经交叉注意力注入。 - 核心思路: 利用 Objaverse 800K+ 3D 模型的规模优势，随机生成旋转 \(Q\) 和平移 \(L\) 运动轨迹模拟物体运动，弥补 HOI 视频数据的稀缺。 - 设计动机: HOI 数据集物体种类极少（~15 类），仅凭 HOI 数据训练会导致模型过拟合特定物体的纹理动态，Objaverse 提供了丰富的物体外观和几何多样性。

损失函数 / 训练策略¶

两阶段训练: 图像阶段冻结时序层训练约 20K 迭代，时序阶段冻结图像层添加时序层训练约 30K 迭代。
多数据集混合: 每次迭代从 Objaverse 数据、HOI 视频数据、人体数据中等比采样。Objaverse 数据不含手部，将 MLO 中手相关层置零；人体数据不含物体，将所有条件置零。
学习率: 图像阶段 \(1 \times 10^{-5}\)，时序阶段 \(8 \times 10^{-6}\)，Adam 优化器。
人体扩展: 可选提取人体骨架 \(S\) 通过额外 Pose Guider \(G_1\) 注入 UNet，支持人体中心的 HOI 视频生成。

实验关键数据¶

主实验¶

方法	DexYCB FID↓	LPIPS↓	PSNR↑	SSIM↑	MPJPE↓
HOGAN	64.74	0.102	29.50	0.896	60.95
ADiff	53.95	0.093	29.96	0.903	59.12
CDiff	84.74	0.127	28.27	0.835	68.01
ManiVideo	49.96	0.079	30.10	0.913	57.30

自采数据集：

方法	FID↓	LPIPS↓	PSNR↑	SSIM↑	MPJPE↓
ADiff	39.91	0.127	29.17	0.898	37.45
CDiff	45.50	0.133	28.33	0.883	42.89
ManiVideo	37.70	0.113	29.59	0.905	32.89

消融实验¶

配置	FID↓	LPIPS↓	PSNR↑	SSIM↑	MPJPE↓
w/o Objaverse	61.60	0.121	27.99	0.895	37.33
w/o MLO	46.67	0.115	28.26	0.869	39.41
w/o MLO* (仅初始噪声)	40.60	0.117	28.30	0.881	34.02
完整模型	37.70	0.113	29.59	0.905	32.89

关键发现¶

MLO 对遮挡建模至关重要: 去掉 MLO 后 FID 从 37.70 升至 46.67，SSIM 从 0.905 降至 0.869，尤其在手指密集排列和弯曲不可见的场景下差距显著。
双重嵌入互补: 仅使用初始噪声嵌入（w/o MLO*）虽优于完全不用 MLO，但仍存在穿透问题，说明 Transformer block 的深层遮挡关系感知不可或缺。
Objaverse 提升物体泛化: 不用 Objaverse 时 FID 劣化最严重（61.60），模型过拟合训练集物体纹理。

亮点与洞察¶

首个框架: 首次实现同时支持灵巧双手操作和可泛化物体的 HOI 视频生成
3D 感知条件设计: MLO 表示将 2D 条件信号的病态问题转化为 3D 完整建模，思路新颖且有效
多数据集统一训练: 巧妙地将 Objaverse（物体）、HOI 视频（交互）、人体数据通过条件置零统一到同一框架
实用价值: 支持人体中心的 HOI 视频生成，可用于数字人和 VR 场景

局限与展望¶

性能受驱动信号精度制约（依赖 MANO 拟合质量）
复杂物体纹理的泛化仍受合成-真实域差距影响
可考虑 4D 表示（时空一致的物体外观建模）进一步提升纹理一致性
当前 HOI 训练数据规模仍然有限（722 视频，15 物体），扩大数据规模有望进一步提升

评分 ⭐⭐⭐⭐¶

创新性: ⭐⭐⭐⭐ MLO 表示和多数据集统一训练都是新颖设计
实验充分度: ⭐⭐⭐⭐ 两个数据集对比 + 完善的消融实验
写作质量: ⭐⭐⭐⭐ 结构清晰，图示直观
实用价值: ⭐⭐⭐⭐ 在数字人和 VR 领域有直接应用前景