HumanCrafter: Synergizing Generalizable Human Reconstruction and Semantic 3D Segmentation¶
会议: NeurIPS 2025
arXiv: 2511.00468
代码: https://paulpanwang.github.io/HumanCrafter
领域: 3D人体重建 / 3D语义分割
关键词: 3D Gaussian Splatting, 人体重建, 3D语义分割, 单图重建, 多任务学习, DINOv2
一句话总结¶
提出HumanCrafter——首个统一单图3D人体重建与人体部位语义分割的前馈框架,通过人体几何先验引导的Transformer聚合多视角特征,结合DINOv2自监督语义先验构建3D特征场,在2K2K和THuman2.1上同时超越现有3D重建和分割SOTA。
研究背景与动机¶
- 领域现状:3D人体重建近年快速发展——3DGS实现实时渲染,大规模重建Transformer(LRM、GRM)实现前馈泛化。但3D人体语义分割(身体部位分割)仍是空白。
- 现有痛点:
- 2D人体分割模型(Sapiens等)无法保证3D一致性——不同视角分割结果不连贯
- 两阶段方案(先重建再2D分割)效率低、3D不一致、工程复杂
- 通用3D重建模型(LGM、GRM)缺乏人体先验,在人体关节和衣物细节上重建质量差
- 3D人体语义数据集匮乏——缺少带标注的多视角人体分割数据
- 核心idea:构建统一框架让3D重建和3D语义分割相互增益——共享3D Gaussian参数,重建任务提供几何约束,分割任务提供语义正则化。
方法详解¶
框架总览¶
输入单张RGB图像 \(\mathbf{I} \in \mathbb{R}^{H \times W \times 3}\),输出语义增强的3D高斯基元(VersatileSplats),同时支持新视角渲染和人体部位分割。
1. 人体先验引导的特征聚合(Sec 3.1)¶
扩散先验:用预训练SV3D生成多视角图像,结合SMPL侧视法线图提供几何引导。多视角图像与Plücker嵌入拼接后分块为patch tokens \(\mathbf{F}_i \in \mathbb{R}^{(h \times w) \times d_1}\)。
跨视角注意力:\(N_f\) 层Grouped Query Attention (GQA)块 + RMS预归一化 + GELU + FFN,实现跨视角特征交互。
深度预测与3D定位:预测深度图 \(\mathbf{D}_i\) 和3D位移 \(\boldsymbol{\Delta}_i\),通过反投影获得3D高斯中心:
2. 自监督模型作为归纳偏置(Sec 3.2)¶
用冻结的DINOv2-ViT-s14-reg提取输入图像语义特征 \(\mathbf{f}_i \in \mathbb{R}^{(h \times w) \times d_2}\)。
像素对齐聚合——利用前一阶段Transformer学习的交叉视角注意力权重,直接对DINOv2特征做加权组合(无需重新学习注意力):
\(\mathbf{Q},\mathbf{K}\) 来自重建Transformer已学好的位置关联,\(\mathbf{V}\) 来自DINOv2特征。
语义3D高斯——每个高斯基元增加可学习语义嵌入,通过 \(1 \times 1\) 卷积解码。渲染语义特征图:
3. 多任务训练目标(Sec 3.3)¶
- \(\mathcal{L}_{\text{render}} = \mathcal{L}_{\text{mse}} + \lambda_m \mathcal{L}_{\text{mask}} + \lambda_p \mathcal{L}_{\text{LPIPS}}\)(渲染损失)
- \(\mathcal{L}_{\text{dist}}\):DINOv2特征蒸馏(余弦相似度,自监督信号)
- \(\mathcal{L}_{\text{CE}}\):交叉熵(仅对有标注的视角生效,28类人体部位+背景)
- 超参:\(\lambda_m=1, \lambda_p=0.1, \lambda_{\text{dist}}=0.5, \lambda_{\text{seg}}=0.5\)
语义标注数据集构建¶
从训练数据中选取500个扫描,每个标注8个语义分割图,交互式标注流程生成高质量数据-标签对。
实验关键数据¶
3D人体分割(2K2K数据集)¶
| 方法 | 输入 | mIoU↑ | Acc.↑ | PSNR↑ | 时间 |
|---|---|---|---|---|---|
| LSM* | 2视角 | 0.724 | 0.873 | 23.81 | 108ms/obj |
| Sapiens | 2D逐帧 | 0.823 | 0.904 | N/A | 640ms/帧 |
| HumanCrafter | 2视角 | 0.840 | 0.925 | 24.79 | 126ms/obj |
| Human3Diff+Sapiens | 单视角 | 0.781 | 0.851 | 21.83 | 23.21s/obj |
| HumanCrafter | 单视角 | 0.801 | 0.882 | 23.49 | 6.24s/obj |
两视角设置下mIoU超越Sapiens 2D模型(0.840 vs 0.823),且保持3D一致性。单视角设置也显著超越两阶段方案。
3D人体重建(512×512分辨率)¶
| 方法 | THuman2.1 PSNR↑ | SSIM↑ | LPIPS↓ | 2K2K PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|---|---|
| LGM | 20.11 | 0.859 | 0.196 | 21.69 | 0.850 | 0.166 |
| GRM | 20.50 | 0.868 | 0.141 | 21.50 | 0.858 | 0.171 |
| Human3Diffusion | 22.16 | 0.872 | 0.063 | 22.32 | 0.882 | 0.053 |
| PSHuman | 20.85 | 0.862 | 0.076 | 21.93 | 0.892 | 0.076 |
| HumanCrafter | 23.19 | 0.907 | 0.046 | 23.49 | 0.916 | 0.045 |
重建质量全面领先——PSNR提升1dB+,LPIPS降低27%(0.046 vs 0.063)。
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| 完整模型 | 23.49 | 0.916 | 0.045 |
| w/o SMPL先验 | 22.20 | 0.890 | 0.064 |
| w/o DINOv2 → MAE | 22.03 | 0.891 | 0.055 |
| w/o 像素对齐聚合 | 21.18 | 0.891 | 0.067 |
| w/o \(\mathcal{L}_{\text{dist}}\) | 22.46 | 0.896 | 0.055 |
| w/o \(\mathcal{L}_{\text{CE}}\) | 23.22 | 0.901 | 0.051 |
SMPL先验贡献最大(+1.29 PSNR);\(\mathcal{L}_{\text{CE}}\)分割损失反过来也提升重建质量(+0.27 PSNR),验证两任务互惠。
亮点¶
- 首个3D重建+3D分割统一框架——共享高斯参数,两任务相互增益
- 像素对齐聚合——复用重建Transformer的注意力权重传递DINOv2特征,零额外参数
- 自监督→3D——将DINOv2 2D特征蒸馏为3D一致的语义场,巧妙解决3D标注稀缺问题
- 实用性强——6.24s单图输出完整3D高斯,可直接集成VR设备和3D编辑管线
局限性 / 可改进方向¶
- 依赖SV3D生成多视角图像(~6s),是速度瓶颈——探索更快的多视角生成
- 仅40K标注图像(500扫描×8视角),扩大标注数据可进一步提升分割质量
- 28类人体部位分割——粒度可进一步细化(如手指级别)
- 未评估真实世界挑战场景(极端姿态、遮挡、多人交互)的定量分割性能
启发与关联¶
- 像素对齐聚合的"复用Q/K,替换V"策略可推广到其他多任务3D系统
- 3D分割正则化提升重建质量的发现,为3D生成模型提供新的训练范式
- 结合FLUX-inpainting的3D编辑应用展示了实际产品化路径
评分¶
- 新颖性: ⭐⭐⭐⭐ 统一框架+像素对齐聚合设计精巧
- 实验充分度: ⭐⭐⭐⭐ 两数据集+完整消融+in-the-wild定性评估
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,方法叙述有条理
- 价值: ⭐⭐⭐⭐⭐ 开创3D人体重建+理解统一方向,实用性强