跳转至

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

基本信息

  • 会议: CVPR 2026
  • arXiv: 2602.19679
  • 代码: 项目主页
  • 领域: 3D视觉 / 人体-物体重建
  • 关键词: 3D Human-Object Reconstruction, Text-Guided Optimization, Score Distillation Sampling, 3D Gaussian Splatting, Human-Object Interaction

一句话总结

TeHOR 利用文本描述作为语义引导,通过预训练扩散模型的 Score Distillation Sampling 联合优化 3D 人体和物体的几何与纹理,突破了传统方法对接触信息的依赖,实现了包括非接触交互在内的准确且语义一致的 3D 重建。

研究背景与动机

从单张图像联合重建 3D 人体和物体是人体行为理解的关键任务,在机器人、AR/VR 和数字内容创作中有广泛应用。现有方法存在两个根本性局限:

过度依赖接触信息:现有方法(如 PHOSA、CONTHO、InteractVLM)主要利用人体-物体接触区域作为交互推理的核心线索,通过迭代拟合强制接触区域的几何邻近。然而,现实世界中大量交互是非接触的(如注视、指向物体),接触信息完全失效。即使存在接触,错误的接触预测也会直接导致重建失败。

忽视全局外观上下文:现有方法的拟合过程主要靠局部几何近邻驱动,忽略了人体和物体的外观线索(颜色、阴影等)所提供的全局交互上下文,导致全局不合理的结果(如物体朝向错误、人体视线不对齐)。

方法详解

整体框架

TeHOR 采用两阶段框架:重建阶段(初始化)和 HOI 优化阶段(联合精调)。

阶段 目标 关键技术
重建阶段 获取初始 3D 人物/物体/背景和文本提示 GPT-4 文本生成、LHM 人体重建、InstantMesh 物体重建
HOI 优化阶段 联合优化几何与纹理(200步迭代) SDS 外观损失、接触损失、碰撞损失

阶段一:重建阶段

  • 文本生成:使用 GPT-4 从输入图像提取两种文本提示——\(P_{\text{holistic}}\)(全局交互描述,如"一个人在草地上骑自行车")和 \(P_{\text{contact}}\)(接触的身体部位,如"右手, 左手")
  • 人体重建:SmartEraser 去除物体 → SAM 分割人体 → LHM 生成初始 3D Gaussian 属性 \(\phi_h\)(40,000 个锚点均匀采样在 SMPL-X 表面)→ Multi-HMR 估计 SMPL-X 姿态 \(\theta\) 和体型 \(\beta\)
  • 物体重建:SmartEraser + SAM 分离物体 → InstantMesh 重建 3D mesh(先用 Zero123++ 生成 6 视角图像,再通过三平面网络重建)→ 转换为 3D Gaussian 属性 \(\phi_o\) → ZoeDepth 深度对齐估计物体位姿 \((R, t, s)\)
  • 背景重建:SmartEraser 去除人体和物体,得到 2D 背景图,用于构建逼真的前视图和新视角渲染

3D 表示

人体和物体分别用 3D Gaussian 集合 \(\Phi_h\)\(\Phi_o\) 表示:

  • 人体 Gaussians:参数化为 Gaussian 属性 \(\phi_h\) + SMPL-X 姿态 \(\theta\) + 体型 \(\beta\)\(\phi_h\) 在标准姿态下定义,每个 Gaussian 锚定到 SMPL-X mesh 表面点,通过 Linear Blend Skinning (LBS) 驱动动画。手部和面部沿用原始 SMPL-X 蒙皮权重,其余部位采用邻近顶点的平均权重
  • 物体 Gaussians:参数化为 Gaussian 属性 \(\phi_o\) + 旋转 \(R\) + 平移 \(t\) + 缩放 \(s\),在标准空间定义后通过仿射变换得到最终位置

选择 3D Gaussians 而非传统 mesh 的优势:(1) 高斯能更好建模高保真视觉外观,为外观损失提供更丰富信号;(2) 灵活的拓扑无关结构允许更有效地优化人物-物体空间关系。

核心损失函数设计

总损失函数由四项组成:

\[\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{appr}} + \mathcal{L}_{\text{contact}} + \mathcal{L}_{\text{collision}}\]

1) 重建损失 \(\mathcal{L}_{\text{recon}}\):前视角渲染与输入图像间的 MSE,包括 RGB 图像重建误差和人体/物体轮廓与分割 mask 的误差,确保重建结果在输入视角下与原图一致。

2) 外观损失 \(\mathcal{L}_{\text{appr}}\)(核心创新):基于 Score Distillation Sampling (SDS) 策略,利用预训练 StableDiffusion-v2.1 的视觉先验,将新视角渲染与 \(P_{\text{holistic}}\) 语义对齐:

\[\nabla_{\Phi}\mathcal{L}_{\text{appr}} = \mathbb{E}\left[w_t\left(\hat{\epsilon}_t(\mathbf{x}_t; P_{\text{holistic}}) - \epsilon_t\right)\frac{\partial \mathbf{x}_t}{\partial \Phi}\right]\]

其中 \(t\) 为噪声级别,\(\mathbf{x}_t\) 为加噪后的渲染图像,\(w_t\) 为权重因子。该损失最小化扩散模型预测噪声 \(\hat{\epsilon}_t(\cdot)\) 与真实噪声 \(\epsilon_t\) 的差距,驱使 3D Gaussian 的渲染结果向文本条件下的合理外观分布靠拢。

关键实现细节:

  • 在球面坐标 \((r, \upsilon, \psi)\) 均匀采样视角:全身视角 \(r \in [1.0, 2.5]\)\(\upsilon \in [-30°, 30°]\)\(\psi \in [-180°, 180°]\);上半身放大视角以 SMPL-X 脊柱为球心,\(r \in [0.7, 1.5]\)
  • 分类器无关引导 (CFG) 尺度 15.0,噪声时间步在 \([0.02, 0.98]\) 内随机采样
  • 梯度裁剪最大范数 1.0

该设计的两大优势:(a) 文本描述超越接触信息,能推理非接触交互(如接飞盘、注视物体);(b) 像素级密集梯度提供细粒度空间监督,远优于 CLIP 的单向量全局编码。

3) 接触损失 \(\mathcal{L}_{\text{contact}}\):根据 \(P_{\text{contact}}\) 确定接触身体部位对应的 Gaussian 中心点集 \(V_{h,c}\),最小化其与最近物体点 \(V_o\) 的距离:

\[\mathcal{L}_{\text{contact}} = \frac{1}{|V_{h,c}|}\sum_{v_h \in V_{h,c}} d(v_h, V_o) \cdot \mathbb{1}[d(v_h, V_o) < \tau]\]

阈值 \(\tau = 10\) cm,保证局部物理合理性。仅对距离小于阈值的点计算梯度,避免将远处无关点强行拉近。

4) 碰撞损失 \(\mathcal{L}_{\text{collision}}\):惩罚人体和物体之间的穿模(interpenetration),计算人体顶点在物体 mesh 内部的比例,确保物理合理性。

Gaussians-to-Mesh 转换

优化完成后需将 3D Gaussians 转换为 mesh 用于评估(与现有 mesh-based 方法公平比较)。由于 Gaussians 偏离底层 base mesh,接触区域可能出现不一致。解决方案:识别人体-物体 Gaussian 距离 < 5 cm 的接触区域,选取对应 mesh 顶点并最小化其间距至零,实现接触一致的转换。

实验

数据集与指标

  • Open3DHOI:开放词汇野外 3D HOI 数据集,2.5K+ 图像,133 类物体(仅评估用)
  • BEHAVE:室内 3D HOI 数据集,8 名受试者 × 20 个物体,测试集 4.5K 图像
  • 指标\(\text{CD}_{\text{human}}\) / \(\text{CD}_{\text{object}}\)(Chamfer 距离, cm↓)、Contact(F1↑)、Collision(穿模率↓)

主实验:与 SOTA 比较(Tab. 4)

方法 CD↓_human (O3D) CD↓_obj (O3D) Contact↑ (O3D) Coll.↓ (O3D) CD↓_human (BH) CD↓_obj (BH) Contact↑ (BH)
PHOSA 5.342 49.180 0.243 0.044 5.758 46.003 0.257
LEMON+PICO 5.948 25.889 0.335 0.078 6.159 22.585 0.082
InteractVLM 5.252 24.238 0.392 0.054 5.770 19.197 0.379
HOI-Gaussian 5.111 19.363 0.348 0.070 5.748 21.774 0.371
TeHOR 4.941 16.701 0.412 0.047 5.615 17.339 0.412

全面超越所有 SOTA。Open3DHOI 上物体 CD 从 19.363→16.701(↓13.7%),Contact F1 从 0.392→0.412。

非接触场景评估(Tab. 5)

方法 CD↓_human CD↓_object Collision↓
PHOSA 5.401 65.537 0.028
InteractVLM 5.390 46.819 0.011
HOI-Gaussian 5.244 25.374 0.037
TeHOR 4.958 17.546 0.005

非接触场景优势更显著,物体 CD 从 25.374→17.546(↓30.8%),验证文本语义引导的关键作用。

消融实验

文本引导优化效果(Tab. 1)

设置 CD↓_human CD↓_obj Contact↑ Collision↓
优化前 5.252 31.268 0.305 0.040
优化(无文本) 5.028 20.348 0.374 0.052
优化(完整) 4.941 16.701 0.412 0.047

损失函数配置消融(Tab. 2)

\(\mathcal{L}_{\text{appr}}\) \(\mathcal{L}_{\text{contact}}\) CD↓_obj Contact↑
22.094 0.330
19.849 0.374
CLIP 替代 18.504 0.366
✓ (SDS) 16.701 0.412

关键发现:SDS 外观损失显著优于 CLIP loss——CLIP 编码为单一 1D 向量无法建模密集空间关系,SDS 提供像素级密集梯度。

渲染组件消融(Tab. 3):3D Gaussians→Mesh 使 CD_obj 恶化至 25.162;去除 2D 背景使 CD_obj 恶化至 18.196,说明完整场景上下文对扩散先验至关重要。

亮点

  • 突破接触依赖范式:首次将文本描述引入 3D 人体-物体联合重建,支持非接触交互推理(注视、指向、接飞盘等)
  • SDS 外观优化:利用预训练扩散模型视觉先验,通过多视角 SDS 实现细粒度语义对齐,消融验证远优于 CLIP
  • 首个纹理联合重建:据称首个同时重建人体和物体完整 3D 纹理的框架,可直接生成沉浸式数字资产
  • 实验设计完善:一般场景与非接触场景分别评估,5 组消融实验充分验证各组件有效性

局限性

  • 依赖 GPT-4、StableDiffusion、LHM、InstantMesh 等多个外部模型,依赖链长且推理成本高
  • 每样本约 134 秒(单张 RTX 8000),200 步优化使实时应用困难
  • 外观损失主要提供全局引导,对局部细节(小配件、微妙表面变形)监督不足
  • 缺乏纹理质量的量化评估指标(无同时标注几何+纹理的 3D HOI 数据集)

评分

⭐⭐⭐⭐ — 清晰识别现有方法的根本局限(接触依赖+忽视全局外观),提出的文本引导 SDS 优化方案新颖且有效。在一般和非接触场景均全面 SOTA,消融实验设计系统完善。主要扣分在优化效率和对多个外部模型的长依赖链。

相关论文