跳转至

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

日期: 2026-03-08
arXiv: 2603.07441
代码: 待发布
领域: 3D视觉
关键词: 3D reconstruction, canine, SDF, normal fusion, diffusion model

一句话总结

提出 DogWeave,从单张 RGB 图像重建高保真 3D 犬类模型——三阶段流程:BITE 粗网格初始化 → SDF+多视图法线融合精炼几何 → 条件 inpainting 生成纹理,仅用 ~7K 2D 图像训练无需 3D 监督,FID 优于 Hunyuan3D 约 9%。

研究背景与动机

  1. 领域现状: 单目 3D 动物重建因关节复杂、自遮挡和毛发细节而极具挑战。通用 3D 重建方法对犬类的品种特征保持不足。

  2. 现有痛点: (a) 通用方法不理解犬类解剖结构;(b) 单视图几何歧义大,尤其遮挡区域;(c) 纹理生成需要保持品种一致性。

  3. 核心 idea: 基于犬类参数化模型(D-SMAL/BITE)初始化粗网格 → 用 ControlNet 增强的多视图法线融合到 SDF 精炼几何 → 几何感知的条件 inpainting 生成一致纹理。

方法详解

整体框架

单张 RGB 图像 → Stage 1: BITE 参数化犬类模型初始化+Marigold 深度/法线监督优化粗网格 → Stage 2: 粗网格转 \(256^3\) SDF + ControlNet 增强多视图法线融合精炼几何细节 → Stage 3: SD1.5+IP-Adapter 条件 inpainting 螺旋视图逐步纹理化 → 高保真 3D 犬类模型

关键设计

  1. 渐进粗几何优化(Stage 1):

    • 做什么:在 BITE 参数化网格基础上用 Marigold 单目深度/法线做监督优化
    • 核心思路:两阶段渐进——Stage 1 侧重深度对齐(\(\lambda_d=1.0, \lambda_n=0.5\),lr=\(10^{-3}\)),Stage 2 侧重法线(\(\lambda_d=0.0, \lambda_n=1.0\),lr=\(10^{-4}\)
    • 感知法线损失:VGG-16 特征匹配+Gram 矩阵风格项(公式2),content term 保几何保真,style term 正则化局部表面模式
    • 尺度不变深度损失\(\mathcal{L}_{depth} = \frac{1}{n}\sum d_i^2 - 0.5(\frac{1}{n}\sum d_i)^2\)(公式3),处理单目深度的尺度歧义
    • 设计动机:BITE 固定拓扑无法恢复细节(如皱纹),需要法线监督
  2. SDF 多视图法线融合(Stage 2,核心创新):

    • 做什么:将粗网格转为 \(256^3\) 体积 SDF,用扩散增强的多视图法线融合精炼几何
    • 核心流程:8 个均匀方位角视图 → 球面追踪渲染相机空间法线 → 自训练的 ControlNet 增强法线细节 → 转世界坐标系 → 加权融合到 \(256^3\) 法线场
    • 融合公式:\(\mathbf{N}_{target}(\mathbf{x}) = \frac{\sum_{i \in V(\mathbf{x})} w_i(\mathbf{x}) \mathbf{n}_i^w(\mathbf{x})}{\|\sum w_i \mathbf{n}_i^w\|}\)\(w_i\) 计数射线击中次数作为置信权重
    • SDF 优化:最小化 SDF 梯度法线与融合法线的余弦距离 + 掩码损失 + Eikonal 正则化\(\|\nabla\phi\|=1\),保证 SDF 性质)
    • 设计关键:ControlNet 在自建数据上微调(非通用增强器)——用 ~7K 犬类图像生成的(粗法线, 精细法线)对训练,保证犬类领域适配
    • vs CraftsMan3D:后者用通用增强器→出现领域漂移(如犬脸变成其他物种特征)
  3. 几何感知纹理合成(Stage 3):

    • 做什么:在 SDF 上逐步 inpaint 生成多视图一致的纹理
    • 核心思路:\(256^3\) 颜色网格 + SD1.5 inpainting 模型(5 输入:渲染法线/当前部分纹理/未完成区域掩码/输入图像作风格参考/品种信息)
    • 螺旋投影:8 个圆环视图按螺旋顺序处理,最大化相邻视图的角度覆盖
    • 体积投影+置信度加权:每个射线-表面交点着色柱形邻域(半径 r=1 体素),视图置信度 \(w_{conf} = |\mathbf{n} \cdot \mathbf{v}| \cdot \frac{\beta_i}{1+\|\mathbf{x}-\mathbf{c}_i\|}\)(法线-视线夹角+距离)
    • IP-Adapter 风格控制:注入参考图像外观(16 tokens, scale 1.0),保持品种身份
    • 设计动机:犬类外观按品种和毛发模式聚类→风格控制的纹理化是天然的身份引导源

训练数据构建(自监督,无 3D 标注)

  • ~7K 图像来自清华犬数据集
  • 法线对:BITE 优化网格渲染法线(粗)↔ Marigold 预测法线(细)
  • 纹理对:Marigold 法线 ↔ 分割后的 RGB 图像
  • ControlNet 在法线对上训(50 epochs),inpainting 模型在纹理对上训(80 epochs)

实验关键数据

主实验(50 张 Stanford Dog 图像,跨数据集评估)

方法 FID ↓ CLIP ↑ LPIPS ↓ DreamSim ↓
DogWeave 176.4 0.9081 0.2495 0.1751
Hunyuan3D 194.3 0.8874 0.2813 0.1843
SAM3D 219.3 0.8491 0.3017 0.2394
TRELLIS 235.7 0.8628 0.3223 0.2788
Wonder3D 297.5 0.8199 0.3180 0.2620
Fauna 393.5 0.6052 0.3963 0.4656

消融实验

配置 LPIPS ↓ DreamSim ↓ 说明
Full DogWeave 0.2495 0.1751 完整模型
w/o 感知损失 0.2641 0.1821 粗几何退化
w/o 法线增强 0.2661 0.1955 高频细节丢失
w/o IP-Adapter 0.2713 0.2546 掉幅最大——身份一致性关键
w/o 品种信息 0.2570 0.1949 品种引导主要影响高层身份

关键发现

  • FID 176.4 超越 Hunyuan3D ~9%——在犬类重建中取得最优视觉真实感
  • CLIP 0.9081 最高——品种身份保持最好(通用方法如 Fauna 仅 0.6052)
  • IP-Adapter 是最关键组件——去掉后 DreamSim 从 0.1751 猛增到 0.2546(+45%),说明风格控制对遮挡区域纹理一致性至关重要
  • 仅 ~7K 2D 图像 + 自监督构建训练数据,无需任何 3D 监督
  • 推理 ~8 分钟/A100(粗网格 1min + SDF 4min + 纹理 3min)

亮点与洞察

  • "领域先验+扩散精炼"的组合范式非常实用——BITE 提供犬类解剖学先验(骨架/关节),ControlNet 补充细节(毛发/皱纹),两者各管各的层级
  • 自训练 ControlNet vs 通用增强器的对比(Fig.3 vs CraftsMan3D)直观展示了领域适配的必要性——通用增强器让小型犬脸变成了其他物种特征
  • 品种聚类→风格控制 的洞察很有生物学意义——同品种犬外观相似度远高于跨品种
  • 体积投影的柱形邻域扩散比单点投影更平滑——避免了纹理接缝

局限性 / 可改进方向

  • 仅限犬类:依赖 BITE 参数化模型,扩展到猫/马需要对应先验(如 AniMer)
  • 光照烘焙问题:IP-Adapter 将输入图像的光照也迁移到 3D 表面→无法重新打光
  • 极端姿态失败:严重自遮挡(如卷曲的身体)导致几何和纹理均歧义
  • 优化式流程 ~8 分钟,远慢于前馈式方法

相关工作与启发

  • vs Hunyuan3D: 强大通用方法但缺犬类身份接地→遮挡区域纹理模糊;DogWeave 的品种条件+IP-Adapter 保持身份
  • vs DogRecon: 也用 D-SMAL 先验但依赖独立视图合成+隐式优化→视图间纹理不一致;DogWeave 的螺旋投影+体积着色更连贯
  • vs Fauna: 覆盖 100+ 四足动物但聚焦粗粒度形状→纹理细节严重不足(CLIP 仅 0.6052)

评分

  • 新颖性: ⭐⭐⭐⭐ 领域先验+多视图法线融合+条件 inpainting 的三阶段流程设计完整
  • 实验充分度: ⭐⭐⭐⭐ 7 种基准对比+4 种指标+消融实验,但评估集仅 50 张图
  • 写作质量: ⭐⭐⭐⭐ 三阶段描述清晰,公式推导完整
  • 价值: ⭐⭐⭐⭐ 细分领域精品方案,品种先验+风格控制的思路可迁移到其他动物