HORT: Monocular Hand-held Objects Reconstruction with Transformers¶

论文信息¶

会议: ICCV 2025
arXiv: 2503.21313
代码: https://zerchen.github.io/projects/hort.html
领域: 3D视觉 / 手持物体重建
关键词: Hand-Object Reconstruction, Point Cloud, Transformer, Coarse-to-Fine, Monocular 3D

一句话总结¶

提出 HORT，基于 Transformer 的粗到细框架，从单目图像高效重建手持物体的稠密3D点云，通过整合图像特征和3D手部几何信息联合预测物体点云及其相对手部的位姿，在准确率和推理速度上均达到 SOTA。

研究背景与动机¶

从单目图像重建手持物体的3D形状在动作识别、人机交互和机器人操作中有广泛应用。现有方法面临关键瓶颈：

隐式表示方法（SDF等）： - 生成的3D表面过于光滑，丢失几何细节 - 需要 Marching Cubes 后处理才能获得显式网格，推理速度慢（约2秒） - 无法灵活用于下游应用

显式表示方法： - HO 使用顶点表示但分辨率有限 - D-SCO 使用扩散模型重建高分辨率点云，但多步去噪导致推理极慢（>13秒）

核心矛盾在于：高质量重建与高效推理之间的平衡。此外，手部几何信息蕴含了关于物体几何和位置的隐式线索，但现有方法未能充分利用。

方法详解¶

整体框架¶

HORT 采用粗到细的两阶段策略，包含四个关键模块：

图像编码器：使用 DINOv2-Large 提取256+1个视觉特征 token
手部编码器：将 MANO 手部几何编码为丰富的3D特征
稀疏点云解码器：联合预测稀疏点云和手相对位姿
稠密点云解码器：利用像素对齐特征上采样为高分辨率点云

细粒度手部特征编码¶

关键创新在于如何编码3D手部几何：

使用 MANO 模型重建手部网格 $v_h \in \mathbb{R}^{778\times3}$，由关节 $j_h \in \mathbb{R}^{16\times3}$ 驱动
将手部顶点变换到22个局部坐标系（16个关节 + 5个指尖 + 1个掌心）
拼接变换后的坐标和绝对顶点索引，得到 $e_h \in \mathbb{R}^{778\times67}$
通过 PointNet 编码为手部特征 $f_h \in \mathbb{R}^{1024}$

这种多坐标系表示方式捕获了手部的姿态和形状相关几何信息，为物体重建提供强有力的结构先验。

稀疏点云解码器¶

将重建任务分解为两个子任务： - 正则物体点云生成：在手掌坐标系下生成 - 手相对物体位姿估计：仅预测相对手掌的3D平移 $t_o \in \mathbb{R}^3$（回避因对称性导致的旋转预测ill-posed问题）

解码器使用统一的多层 Transformer： - 定义 $1 + N_p^s$ 个可学习 token（1个位姿 + $N_p^s$ 个点云） - 先自注意力，后分别对图像特征 $f_v$ 和手部特征 $f_h$ 做交叉注意力 - 共享 backbone 让位姿和点云预测互相促进

稠密点云解码器¶

从稀疏到稠密的上采样策略：

像素对齐特征提取：利用预测的相机参数和位姿，将稀疏点云投影到图像平面 $$f_o = F(\pi(p_o^s + t_p + t_o, K_{cam}), f_v^r)$$
局部自注意力：在 KNN 邻域内（k=16）进行自注意力，聚合空间和视觉上下文
两级上采样：分别以2倍和4倍上采样，最终得到 $N_p^d = 16384$ 个点

损失函数¶

端到端训练，总损失为：

\[\mathcal{L} = \lambda_1 \mathcal{L}_{pose} + \lambda_2 \mathcal{L}_{cd}^s + \mathcal{L}_{cd}^d\]

$\mathcal{L}_{pose}$：ℓ1损失监督物体相对手掌的3D平移
$\mathcal{L}_{cd}^s$：稀疏点云的 Chamfer Distance
$\mathcal{L}_{cd}^d$：稠密点云的 Chamfer Distance
两个超参数均设为2

实验¶

主实验：ObMan 数据集对比¶

方法	FS@5 ↑	FS@10 ↑	CD ↓
HO	0.23	0.56	6.4
AlignSDF	0.40	0.64	9.2
gSDF	0.44	0.66	8.8
DDF-HO	0.55	0.67	1.4
D-SCO	0.61	0.81	1.1
HORT (Ours)	0.66	0.88	1.0

HORT 在所有指标上超越 D-SCO，FS@5 提升 +0.05，FS@10 提升 +0.07。

HO3D 和 DexYCB 真实数据集¶

方法	HO3D FS@5 ↑	HO3D CD ↓	DexYCB FS@5 ↑	DexYCB CD ↓
D-SCO	0.38	3.2	0.48	2.9
HORT	0.41	2.5	0.52	2.5

在真实数据集上同样保持 SOTA 性能。

消融实验：编码器设计¶

配置	手掌	关节	图像编码器	FS@5 ↑	CD ↓
R1	×	×	Fine-tune	0.45	3.1
R2	✓	×	Fine-tune	0.53	2.4
R3	✓	✓	Fine-tune	0.60	1.8
R4	✓	✓	Scratch	0.51	2.6
R5	✓	✓	Frozen	0.48	2.9

关键发现：(1) 手部多坐标系编码至关重要（R1→R3：FS@5 提升 0.15）；(2) 图像编码器微调策略影响显著。

推理速度对比¶

HORT 推理一张图像约 0.08秒（含网格化），而 D-SCO 需要 13秒，隐式方法需约 2秒。推理速度提升 162倍。

亮点与洞察¶

速度-质量最优平衡：在推理速度上比 D-SCO 快两个数量级的同时，重建质量更优
巧妙的手部先验利用：多坐标系变换 + PointNet 编码的手部几何特征提供了强大的物体形状约束
端到端训练优势：相比 D-SCO 分模块训练，端到端优化让各组件协同更好
可作为优化方法的初始化：前馈预测可加速后续基于优化的精细化方法

局限性¶

不预测物体旋转（因对称性问题），对非对称物体的位姿估计不完整
依赖手部姿态估计质量，手部重建失败会影响物体重建
点云表示无法直接用于需要网格拓扑的应用（如物理仿真）

评分¶

新颖性: ⭐⭐⭐⭐ — 粗到细 Transformer 框架结合手部几何的设计新颖实用
技术深度: ⭐⭐⭐⭐ — 多坐标系手部编码和联合解码设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 4个数据集、全面消融、推理速度对比
实用价值: ⭐⭐⭐⭐⭐ — 0.08秒推理使其具备实时应用潜力