D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction¶
会议: ECCV2024
arXiv: 2311.14189
代码: 待确认
领域: 3d_vision
关键词: 手持物体重建, 扩散模型, 手-物交互, 双流去噪, 质心固定
一句话总结¶
提出双流条件扩散模型 D-SCo 从单张 RGB 图像重建手持物体点云,通过统一手-物语义嵌入和手关节几何嵌入两个分支分别提供语义和几何先验,配合手约束质心固定策略稳定扩散过程,在 ObMan 上 F-5 达 0.61(超 DDF-HO 10.9%),真实数据集 HO3D/MOW 上也大幅领先。
研究背景与动机¶
- 领域现状:单目手持物体 3D 重建因手部严重遮挡和物体多样性极具挑战。现有方法包括基于 SDF 的(gSDF)、隐式表征的(iHOI)和扩散模型的(DDF-HO)。
- 现有痛点:(a) 手部遮挡导致物体可见区域不足 50%;(b) 现有扩散方法仅用图像特征做条件,未充分利用手部几何信息——手的姿态和关节位置其实强约束了物体的位置和形状;(c) 扩散过程中点云质心漂移导致重建不稳定。
- 核心矛盾:手是遮挡的来源,但同时也是物体空间位置和形状的强先验——如何将手从"干扰因素"转变为"有用信号"?
- 本文要解决:(1) 如何利用手部姿态提供物体重建的语义和几何约束?(2) 如何稳定扩散过程中的点云质心?
- 切入角度:手-物交互提供两层信息——语义层(手遮挡区域可由手表面特征补偿)和几何层(手关节坐标系提供物体的多个参考帧),分别用两个去噪分支处理。
- 核心 idea:双流条件去噪器——语义流处理手-物统一投影特征,几何流处理基于手关节的多坐标系变换特征;加上质心预测网络固定扩散过程中的点云中心。
方法详解¶
整体框架¶
输入单张 RGB 图像 → 手部姿态估计(off-the-shelf) → 质心预测网络估计物体中心 \(\hat{\mathcal{M}}\) → 质心固定扩散(前向加噪 + 反向去噪时都保持质心在 \(\hat{\mathcal{M}}\)) → 双流去噪器融合语义和几何条件 → 输出物体点云。
关键设计¶
- 手约束质心固定(Centroid Fixing):
- 做什么:专门训练一个质心预测网络(PointNet + ResNet-18),预测物体 3D 质心;扩散每步都将点云重新居中到该质心
- 核心思路:前向过程 \(X_0 \leftarrow X_0 - \bar{X}_0 + \hat{\mathcal{M}}\),噪声零均值化 \(\epsilon \leftarrow \epsilon - \bar{\epsilon}\),反向每步 \(X_t \leftarrow X_t - \bar{X}_t + \hat{\mathcal{M}}\)
-
设计动机:消融显示去掉质心固定后 F-5 从 0.61 降至 0.44(-28%),去掉质心预测更降至 0.32。质心漂移是扩散点云重建的核心瓶颈
-
统一手-物语义嵌入(\(X_t^{HO}\)):
- 做什么:将物体点云和手部顶点一起投影到图像特征空间,用 one-hot 编码区分手/物
- 核心思路:投影操作 \(X_t^O = \pi(\mathcal{R}(X_t), \mathcal{F})\) 提取图像特征,手部顶点加入后 \(X_t^{HO} \in \mathbb{R}^{(N+N_h) \times (C+1)}\)
-
设计动机:手部遮挡的物体区域在图像中对应手的像素——将手部顶点的图像特征也纳入,让去噪器"看到"被手遮挡区域的语义信息
-
手关节几何嵌入(\(X_t^A\)):
- 做什么:将物体每个点变换到 15 个手关节局部坐标系下,得到 \(X_t^A \in \mathbb{R}^{N \times 45}\)(15 个关节 × 3D 坐标)
- 核心思路:手关节的相对坐标提供了物体在手部参考帧中的精确空间关系,是强几何约束
-
设计动机:物体被手抓握时,手关节位置隐含了物体的尺寸、形状和抓取方式信息
-
双流去噪器:
- 语义分支:\(f_\theta^1([X_t, X_t^{HO}]) \rightarrow \mathcal{F}_\theta^1\)
- 几何分支:\(f_\theta^2([X_t, X_t^A]) \rightarrow \mathcal{F}_\theta^2\)
- 融合:\(\epsilon_\theta = g_\theta([\mathcal{F}_\theta^1, \mathcal{F}_\theta^2])\)
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{denoise} + \eta_1 \mathcal{L}_{mask}\),其中去噪 loss 为标准 \(\|\epsilon - \epsilon_\theta\|\),mask loss 用渲染一致性监督。质心网络独立训练:3D 质心 loss + 2D 投影 loss + 投影一致性 loss。主要在 ObMan(合成数据 141K 帧)上训练,在 HO3D/MOW/DexYCB(真实数据)上微调。
实验关键数据¶
主实验¶
ObMan(合成):
| 方法 | F-5↑ | F-10↑ | CD(mm)↓ |
|---|---|---|---|
| iHOI | 0.42 | 0.63 | 1.02 |
| gSDF | 0.44 | 0.66 | — |
| DDF-HO | 0.55 | 0.67 | 0.14 |
| D-SCo | 0.61 | 0.81 | 0.11 |
HO3D(真实,微调后):
| 方法 | F-5↑ | F-10↑ | CD↓ |
|---|---|---|---|
| DDF-HO | 0.27 | 0.40 | 0.86 |
| D-SCo | 0.41 | 0.63 | 0.34 |
DexYCB 上 F-5 0.63 vs gSDF 的 0.44(+43%)。
消融实验¶
| 配置 | ObMan F-5 | HO3D F-5 |
|---|---|---|
| 完整模型 | 0.61 | 0.41 |
| w/o mask loss | 0.57 | 0.36 |
| w/o 双流(单流) | 0.54 | 0.34 |
| w/o 所有手嵌入 | 0.48 | 0.28 |
| w/o 语义嵌入 | 0.51 | 0.33 |
| w/o 几何嵌入 | 0.51 | 0.30 |
| w/o 质心固定 | 0.44 | 0.27 |
| w/o 质心预测 | 0.32 | 0.23 |
关键发现¶
- 质心固定是最关键组件:去掉后 F-5 从 0.61 降至 0.44(-28%),证明扩散点云重建中质心稳定性是核心
- 双流优于单流:两个分支提供互补信息,合并后 F-5 比单流高 13%
- 语义和几何嵌入同等重要:去掉其中任一个效果类似(均降至 0.51),但同时去掉降至 0.48
- 遮挡鲁棒性:在 <50% 可见度下仍保持高性能,优于 iHOI 和 DDF-HO
- Oracle 采样: 5 个样本取最优可达 F-5=0.67,说明扩散模型的随机性可用多采样策略提升
亮点与洞察¶
- 手从干扰变线索:传统方法视手部遮挡为难题,D-SCo 将手部姿态转化为双重先验(语义+几何),是很好的问题重构思路。这种"化劣势为优势"的设计哲学值得学习
- 质心固定的简洁有效:仅在扩散每步做一次均值减法+偏移,零额外计算但效果巨大(+39% F-5),可泛化到任何基于扩散的 3D 生成任务
- 多坐标系几何编码新颖:将物体点变换到 15 个手关节坐标系下相当于给点云做了一种"手感知的位置编码",直接利用了人体运动学结构
局限性 / 可改进方向¶
- 依赖手部姿态准确性:手部姿态估计错误会级联影响质心预测和几何嵌入
- 仅约束质心不约束朝向:未利用手姿态推断物体的 6DoF 位姿(仅 3DoF 平移)
- 合成到真实域差距:ObMan 训练后零样本迁移到 HO3D 效果明显弱于微调后(F-5 0.27 vs 0.41)
- 可改进:(1) 加入手部朝向约束物体姿态;(2) 用更大规模真实数据训练;(3) 扩展到双手/多物体场景
相关工作与启发¶
- vs DDF-HO: 同为扩散方法但仅用图像条件,D-SCo 加入手部双流条件后 ObMan F-5 从 0.55 提升至 0.61,真实数据 HO3D 更是从 0.27 到 0.41
- vs gSDF: 基于 SDF 的确定性方法,缺乏生成多样性。D-SCo 作为概率方法可通过多采样进一步提升(oracle 0.67)
- vs iHOI: 隐式方法要求分辨率/内存权衡,D-SCo 的点云表征更灵活
评分¶
- 新颖性: ⭐⭐⭐⭐ 双流条件设计和质心固定策略有新意,将手部姿态融入扩散先验的方式独特
- 实验充分度: ⭐⭐⭐⭐ 合成+3个真实数据集、详细消融、遮挡分析、Oracle 实验
- 写作质量: ⭐⭐⭐⭐ 方法推导清晰,消融设计合理
- 价值: ⭐⭐⭐⭐ 手持物体重建的新 SOTA,质心固定技术可泛化到其他扩散 3D 生成任务