跳转至

D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction

会议: ECCV2024
arXiv: 2311.14189
代码: 待确认
领域: 3d_vision
关键词: 手持物体重建, 扩散模型, 手-物交互, 双流去噪, 质心固定

一句话总结

提出双流条件扩散模型 D-SCo 从单张 RGB 图像重建手持物体点云,通过统一手-物语义嵌入和手关节几何嵌入两个分支分别提供语义和几何先验,配合手约束质心固定策略稳定扩散过程,在 ObMan 上 F-5 达 0.61(超 DDF-HO 10.9%),真实数据集 HO3D/MOW 上也大幅领先。

研究背景与动机

  1. 领域现状:单目手持物体 3D 重建因手部严重遮挡和物体多样性极具挑战。现有方法包括基于 SDF 的(gSDF)、隐式表征的(iHOI)和扩散模型的(DDF-HO)。
  2. 现有痛点:(a) 手部遮挡导致物体可见区域不足 50%;(b) 现有扩散方法仅用图像特征做条件,未充分利用手部几何信息——手的姿态和关节位置其实强约束了物体的位置和形状;(c) 扩散过程中点云质心漂移导致重建不稳定。
  3. 核心矛盾:手是遮挡的来源,但同时也是物体空间位置和形状的强先验——如何将手从"干扰因素"转变为"有用信号"?
  4. 本文要解决:(1) 如何利用手部姿态提供物体重建的语义和几何约束?(2) 如何稳定扩散过程中的点云质心?
  5. 切入角度:手-物交互提供两层信息——语义层(手遮挡区域可由手表面特征补偿)和几何层(手关节坐标系提供物体的多个参考帧),分别用两个去噪分支处理。
  6. 核心 idea:双流条件去噪器——语义流处理手-物统一投影特征,几何流处理基于手关节的多坐标系变换特征;加上质心预测网络固定扩散过程中的点云中心。

方法详解

整体框架

输入单张 RGB 图像 → 手部姿态估计(off-the-shelf) → 质心预测网络估计物体中心 \(\hat{\mathcal{M}}\) → 质心固定扩散(前向加噪 + 反向去噪时都保持质心在 \(\hat{\mathcal{M}}\)) → 双流去噪器融合语义和几何条件 → 输出物体点云。

关键设计

  1. 手约束质心固定(Centroid Fixing):
  2. 做什么:专门训练一个质心预测网络(PointNet + ResNet-18),预测物体 3D 质心;扩散每步都将点云重新居中到该质心
  3. 核心思路:前向过程 \(X_0 \leftarrow X_0 - \bar{X}_0 + \hat{\mathcal{M}}\),噪声零均值化 \(\epsilon \leftarrow \epsilon - \bar{\epsilon}\),反向每步 \(X_t \leftarrow X_t - \bar{X}_t + \hat{\mathcal{M}}\)
  4. 设计动机:消融显示去掉质心固定后 F-5 从 0.61 降至 0.44(-28%),去掉质心预测更降至 0.32。质心漂移是扩散点云重建的核心瓶颈

  5. 统一手-物语义嵌入(\(X_t^{HO}\):

  6. 做什么:将物体点云和手部顶点一起投影到图像特征空间,用 one-hot 编码区分手/物
  7. 核心思路:投影操作 \(X_t^O = \pi(\mathcal{R}(X_t), \mathcal{F})\) 提取图像特征,手部顶点加入后 \(X_t^{HO} \in \mathbb{R}^{(N+N_h) \times (C+1)}\)
  8. 设计动机:手部遮挡的物体区域在图像中对应手的像素——将手部顶点的图像特征也纳入,让去噪器"看到"被手遮挡区域的语义信息

  9. 手关节几何嵌入(\(X_t^A\):

  10. 做什么:将物体每个点变换到 15 个手关节局部坐标系下,得到 \(X_t^A \in \mathbb{R}^{N \times 45}\)(15 个关节 × 3D 坐标)
  11. 核心思路:手关节的相对坐标提供了物体在手部参考帧中的精确空间关系,是强几何约束
  12. 设计动机:物体被手抓握时,手关节位置隐含了物体的尺寸、形状和抓取方式信息

  13. 双流去噪器:

  14. 语义分支:\(f_\theta^1([X_t, X_t^{HO}]) \rightarrow \mathcal{F}_\theta^1\)
  15. 几何分支:\(f_\theta^2([X_t, X_t^A]) \rightarrow \mathcal{F}_\theta^2\)
  16. 融合:\(\epsilon_\theta = g_\theta([\mathcal{F}_\theta^1, \mathcal{F}_\theta^2])\)

损失函数 / 训练策略

\(\mathcal{L} = \mathcal{L}_{denoise} + \eta_1 \mathcal{L}_{mask}\),其中去噪 loss 为标准 \(\|\epsilon - \epsilon_\theta\|\),mask loss 用渲染一致性监督。质心网络独立训练:3D 质心 loss + 2D 投影 loss + 投影一致性 loss。主要在 ObMan(合成数据 141K 帧)上训练,在 HO3D/MOW/DexYCB(真实数据)上微调。

实验关键数据

主实验

ObMan(合成):

方法 F-5↑ F-10↑ CD(mm)↓
iHOI 0.42 0.63 1.02
gSDF 0.44 0.66
DDF-HO 0.55 0.67 0.14
D-SCo 0.61 0.81 0.11

HO3D(真实,微调后):

方法 F-5↑ F-10↑ CD↓
DDF-HO 0.27 0.40 0.86
D-SCo 0.41 0.63 0.34

DexYCB 上 F-5 0.63 vs gSDF 的 0.44(+43%)。

消融实验

配置 ObMan F-5 HO3D F-5
完整模型 0.61 0.41
w/o mask loss 0.57 0.36
w/o 双流(单流) 0.54 0.34
w/o 所有手嵌入 0.48 0.28
w/o 语义嵌入 0.51 0.33
w/o 几何嵌入 0.51 0.30
w/o 质心固定 0.44 0.27
w/o 质心预测 0.32 0.23

关键发现

  • 质心固定是最关键组件:去掉后 F-5 从 0.61 降至 0.44(-28%),证明扩散点云重建中质心稳定性是核心
  • 双流优于单流:两个分支提供互补信息,合并后 F-5 比单流高 13%
  • 语义和几何嵌入同等重要:去掉其中任一个效果类似(均降至 0.51),但同时去掉降至 0.48
  • 遮挡鲁棒性:在 <50% 可见度下仍保持高性能,优于 iHOI 和 DDF-HO
  • Oracle 采样: 5 个样本取最优可达 F-5=0.67,说明扩散模型的随机性可用多采样策略提升

亮点与洞察

  • 手从干扰变线索:传统方法视手部遮挡为难题,D-SCo 将手部姿态转化为双重先验(语义+几何),是很好的问题重构思路。这种"化劣势为优势"的设计哲学值得学习
  • 质心固定的简洁有效:仅在扩散每步做一次均值减法+偏移,零额外计算但效果巨大(+39% F-5),可泛化到任何基于扩散的 3D 生成任务
  • 多坐标系几何编码新颖:将物体点变换到 15 个手关节坐标系下相当于给点云做了一种"手感知的位置编码",直接利用了人体运动学结构

局限性 / 可改进方向

  • 依赖手部姿态准确性:手部姿态估计错误会级联影响质心预测和几何嵌入
  • 仅约束质心不约束朝向:未利用手姿态推断物体的 6DoF 位姿(仅 3DoF 平移)
  • 合成到真实域差距:ObMan 训练后零样本迁移到 HO3D 效果明显弱于微调后(F-5 0.27 vs 0.41)
  • 可改进:(1) 加入手部朝向约束物体姿态;(2) 用更大规模真实数据训练;(3) 扩展到双手/多物体场景

相关工作与启发

  • vs DDF-HO: 同为扩散方法但仅用图像条件,D-SCo 加入手部双流条件后 ObMan F-5 从 0.55 提升至 0.61,真实数据 HO3D 更是从 0.27 到 0.41
  • vs gSDF: 基于 SDF 的确定性方法,缺乏生成多样性。D-SCo 作为概率方法可通过多采样进一步提升(oracle 0.67)
  • vs iHOI: 隐式方法要求分辨率/内存权衡,D-SCo 的点云表征更灵活

评分

  • 新颖性: ⭐⭐⭐⭐ 双流条件设计和质心固定策略有新意,将手部姿态融入扩散先验的方式独特
  • 实验充分度: ⭐⭐⭐⭐ 合成+3个真实数据集、详细消融、遮挡分析、Oracle 实验
  • 写作质量: ⭐⭐⭐⭐ 方法推导清晰,消融设计合理
  • 价值: ⭐⭐⭐⭐ 手持物体重建的新 SOTA,质心固定技术可泛化到其他扩散 3D 生成任务