跳转至

HumanCrafter: Synergizing Generalizable Human Reconstruction and Semantic 3D Segmentation

会议: NeurIPS 2025
arXiv: 2511.00468
代码: https://paulpanwang.github.io/HumanCrafter
领域: 3D人体重建 / 3D语义分割
关键词: 3D Gaussian Splatting, 人体重建, 3D语义分割, 单图重建, 多任务学习, DINOv2

一句话总结

提出HumanCrafter——首个统一单图3D人体重建与人体部位语义分割的前馈框架,通过人体几何先验引导的Transformer聚合多视角特征,结合DINOv2自监督语义先验构建3D特征场,在2K2K和THuman2.1上同时超越现有3D重建和分割SOTA。

研究背景与动机

  1. 领域现状:3D人体重建近年快速发展——3DGS实现实时渲染,大规模重建Transformer(LRM、GRM)实现前馈泛化。但3D人体语义分割(身体部位分割)仍是空白。
  2. 现有痛点
  3. 2D人体分割模型(Sapiens等)无法保证3D一致性——不同视角分割结果不连贯
  4. 两阶段方案(先重建再2D分割)效率低、3D不一致、工程复杂
  5. 通用3D重建模型(LGM、GRM)缺乏人体先验,在人体关节和衣物细节上重建质量差
  6. 3D人体语义数据集匮乏——缺少带标注的多视角人体分割数据
  7. 核心idea:构建统一框架让3D重建和3D语义分割相互增益——共享3D Gaussian参数,重建任务提供几何约束,分割任务提供语义正则化。

方法详解

框架总览

输入单张RGB图像 \(\mathbf{I} \in \mathbb{R}^{H \times W \times 3}\),输出语义增强的3D高斯基元(VersatileSplats),同时支持新视角渲染和人体部位分割。

1. 人体先验引导的特征聚合(Sec 3.1)

扩散先验:用预训练SV3D生成多视角图像,结合SMPL侧视法线图提供几何引导。多视角图像与Plücker嵌入拼接后分块为patch tokens \(\mathbf{F}_i \in \mathbb{R}^{(h \times w) \times d_1}\)

跨视角注意力\(N_f\) 层Grouped Query Attention (GQA)块 + RMS预归一化 + GELU + FFN,实现跨视角特征交互。

深度预测与3D定位:预测深度图 \(\mathbf{D}_i\) 和3D位移 \(\boldsymbol{\Delta}_i\),通过反投影获得3D高斯中心:

\[\boldsymbol{\mu}_p = \mathbf{R}_i^\top \mathbf{K}^{-1} \mathbf{D}_i[u,v] - \mathbf{t}_i + \boldsymbol{\Delta}[u,v]\]

2. 自监督模型作为归纳偏置(Sec 3.2)

用冻结的DINOv2-ViT-s14-reg提取输入图像语义特征 \(\mathbf{f}_i \in \mathbb{R}^{(h \times w) \times d_2}\)

像素对齐聚合——利用前一阶段Transformer学习的交叉视角注意力权重,直接对DINOv2特征做加权组合(无需重新学习注意力):

\[\text{CrossAttn}(\mathbf{f}_i) = \text{SoftMax}\left(\frac{\mathbf{Q}(\mathbf{F}_i)\mathbf{K}(\mathbf{F}_i)^\top}{\sqrt{d_k}} + \mathbf{B}\right) \mathbf{f}_i\]

\(\mathbf{Q},\mathbf{K}\) 来自重建Transformer已学好的位置关联,\(\mathbf{V}\) 来自DINOv2特征。

语义3D高斯——每个高斯基元增加可学习语义嵌入,通过 \(1 \times 1\) 卷积解码。渲染语义特征图:

\[f = \sum_{i=1}^{N} \mathbf{M}\tilde{\mathbf{f}}_i \boldsymbol{\sigma}_i \prod_{j=1}^{i-1}(1 - \boldsymbol{\sigma}_j)\]

3. 多任务训练目标(Sec 3.3)

\[\mathcal{L}(\boldsymbol{\Theta}) = \mathbb{E}_{i}[\mathcal{L}_{\text{render}} + \lambda_{\text{dist}} \cdot \mathcal{L}_{\text{dist}}(\mathbf{f}_i, \hat{\mathbf{f}_i})] + \lambda_{\text{seg}} \cdot \mathbb{E}_{j}[\mathcal{L}_{\text{CE}}(\mathbf{S}_j, \hat{\mathbf{S}_j})]\]
  • \(\mathcal{L}_{\text{render}} = \mathcal{L}_{\text{mse}} + \lambda_m \mathcal{L}_{\text{mask}} + \lambda_p \mathcal{L}_{\text{LPIPS}}\)(渲染损失)
  • \(\mathcal{L}_{\text{dist}}\):DINOv2特征蒸馏(余弦相似度,自监督信号)
  • \(\mathcal{L}_{\text{CE}}\):交叉熵(仅对有标注的视角生效,28类人体部位+背景)
  • 超参:\(\lambda_m=1, \lambda_p=0.1, \lambda_{\text{dist}}=0.5, \lambda_{\text{seg}}=0.5\)

语义标注数据集构建

从训练数据中选取500个扫描,每个标注8个语义分割图,交互式标注流程生成高质量数据-标签对。

实验关键数据

3D人体分割(2K2K数据集)

方法 输入 mIoU↑ Acc.↑ PSNR↑ 时间
LSM* 2视角 0.724 0.873 23.81 108ms/obj
Sapiens 2D逐帧 0.823 0.904 N/A 640ms/帧
HumanCrafter 2视角 0.840 0.925 24.79 126ms/obj
Human3Diff+Sapiens 单视角 0.781 0.851 21.83 23.21s/obj
HumanCrafter 单视角 0.801 0.882 23.49 6.24s/obj

两视角设置下mIoU超越Sapiens 2D模型(0.840 vs 0.823),且保持3D一致性。单视角设置也显著超越两阶段方案。

3D人体重建(512×512分辨率)

方法 THuman2.1 PSNR↑ SSIM↑ LPIPS↓ 2K2K PSNR↑ SSIM↑ LPIPS↓
LGM 20.11 0.859 0.196 21.69 0.850 0.166
GRM 20.50 0.868 0.141 21.50 0.858 0.171
Human3Diffusion 22.16 0.872 0.063 22.32 0.882 0.053
PSHuman 20.85 0.862 0.076 21.93 0.892 0.076
HumanCrafter 23.19 0.907 0.046 23.49 0.916 0.045

重建质量全面领先——PSNR提升1dB+,LPIPS降低27%(0.046 vs 0.063)。

消融实验

配置 PSNR↑ SSIM↑ LPIPS↓
完整模型 23.49 0.916 0.045
w/o SMPL先验 22.20 0.890 0.064
w/o DINOv2 → MAE 22.03 0.891 0.055
w/o 像素对齐聚合 21.18 0.891 0.067
w/o \(\mathcal{L}_{\text{dist}}\) 22.46 0.896 0.055
w/o \(\mathcal{L}_{\text{CE}}\) 23.22 0.901 0.051

SMPL先验贡献最大(+1.29 PSNR);\(\mathcal{L}_{\text{CE}}\)分割损失反过来也提升重建质量(+0.27 PSNR),验证两任务互惠。

亮点

  1. 首个3D重建+3D分割统一框架——共享高斯参数,两任务相互增益
  2. 像素对齐聚合——复用重建Transformer的注意力权重传递DINOv2特征,零额外参数
  3. 自监督→3D——将DINOv2 2D特征蒸馏为3D一致的语义场,巧妙解决3D标注稀缺问题
  4. 实用性强——6.24s单图输出完整3D高斯,可直接集成VR设备和3D编辑管线

局限性 / 可改进方向

  1. 依赖SV3D生成多视角图像(~6s),是速度瓶颈——探索更快的多视角生成
  2. 仅40K标注图像(500扫描×8视角),扩大标注数据可进一步提升分割质量
  3. 28类人体部位分割——粒度可进一步细化(如手指级别)
  4. 未评估真实世界挑战场景(极端姿态、遮挡、多人交互)的定量分割性能

启发与关联

  • 像素对齐聚合的"复用Q/K,替换V"策略可推广到其他多任务3D系统
  • 3D分割正则化提升重建质量的发现,为3D生成模型提供新的训练范式
  • 结合FLUX-inpainting的3D编辑应用展示了实际产品化路径

评分

  • 新颖性: ⭐⭐⭐⭐ 统一框架+像素对齐聚合设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 两数据集+完整消融+in-the-wild定性评估
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,方法叙述有条理
  • 价值: ⭐⭐⭐⭐⭐ 开创3D人体重建+理解统一方向,实用性强