跳转至

GenVDM: Generating Vector Displacement Maps From a Single Image

会议: CVPR 2025
arXiv: 2503.00605
代码: https://yyuezhi.github.io/GenVDM/
领域: 3D视觉
关键词: 向量位移图, 单图3D重建, 多视图法线生成, 神经变形场, 3D建模

一句话总结

提出首个从单张图像生成 Vector Displacement Map (VDM) 的方法,通过微调 Zero123++ 生成多视角法线图、使用神经 SDF 重建网格、再用神经变形场参数化为 VDM 图像,并构建了首个学术 VDM 数据集,为 3D 艺术家提供了按需生成自定义几何细节印章的能力。

研究背景与动机

领域现状:3D 生成模型虽然发展迅速,但在艺术工作流中仍未被广泛采用,原因有二:(1) 生成精细几何细节困难;(2) 缺乏艺术家需要的精确空间和组合控制。现有 Image-to-3D 方法(LRM、Wonder3D、Magic123 等)专注于生成完整物体而非局部几何细节。

现有痛点:(1) VDM 是 3D 建模中广泛支持的细节印章表示(Blender、Maya、ZBrush 等均支持),但创作 VDM 极为困难,艺术家通常依赖昂贵的第三方印章包,定制性和通用性受限;(2) 现有 Image-to-3D 方法不生成参数化 2D 域,无法直接用作印章;(3) 单视图深度估计无法捕获遮挡区域、悬挑和凹腔等复杂几何。

核心矛盾:VDM 需要表示任意 3D 位移(包括内凹和悬挑),而现有的深度图/标量位移图只能表示高度场,无法处理遮挡和自遮挡。同时没有公开的 VDM 数据集用于训练。

本文目标 如何从单张 RGB 图像生成高质量的 VDM?具体包括:(1) 如何生成能解决遮挡的多视角几何表示;(2) 如何将重建的网格参数化为 VDM 图像格式;(3) 如何构建训练数据集。

切入角度:作者观察到 VDM 是比完整物体更小、更简单的几何区域,可以用少量数据微调的扩散模型来生成其多视角法线图。关键洞察是只需要生成法线图(不需要 RGB),因为只关注几何细节。使用神经变形场(MLP)参数化 VDM 既能自然平滑又能处理复杂拓扑。

核心 idea:用多视角法线生成解决遮挡问题,用神经 SDF 重建网格,再用 MLP 变形场将网格参数化为 VDM 图像,以仅 1200 个训练样本实现了高质量的零样本 VDM 生成。

方法详解

整体框架

输入一张 RGB 图像(可来自文本到图像模型),经过三步流程输出 VDM 图像:(1) 多视角法线生成——微调 Zero123++ 从输入图像生成 6 个预定义视角的法线图;(2) 网格重建——用 Wonder3D 的神经 SDF 优化从多视角法线重建网格;(3) VDM 参数化——用 MLP 变形场将 2D 正方形变形拟合到重建网格,得到 VDM 图像。整个重建流程约 6 分钟。

关键设计

  1. 多视角法线图生成:

    • 功能:从单张图像生成 6 个视角的法线图,解决单视图的遮挡问题
    • 核心思路:微调 Zero123++(基于 Stable Diffusion 的 Image-to-Multiview 模型)只生成法线图而非 RGB。重新设计了 6 个相机位姿:四个水平方向 \((0°, ±30°)\)\((0°, ±60°)\),两个垂直方向 \((±45°, 0°)\),不包含背面视角因为 VDM 不需要。使用正交投影减少畸变。输入图像会添加灰色方形背景,模拟 VDM 应用在平面上的外观。在 8 块 A100 上微调 3 天
    • 设计动机:VDM 的几何可能包含悬挑和凹腔,单视图深度估计无法捕获这些被遮挡的部分。只生成法线不生成 RGB 是因为 VDM 只关注几何。重新设计的相机布局(不包含背面)符合 VDM 只需前半球信息的特点
  2. 神经 SDF 重建 + VDM 参数化(两步重建):

    • 功能:从多视角法线图重建 3D 网格并将其参数化为 VDM 图像
    • 核心思路:第一步用 Wonder3D 的方法优化神经 SDF,通过可微渲染使预测法线与生成的多视角法线对齐(去掉了 \(L_{rgb}\) 因为不预测 RGB)。由于灰色方形背景的设计,重建出的网格包含一个平面底座,可以轻松分离出附在其上的 VDM 部件。第二步用 MLP \(\phi_\theta\) 定义从 2D 正方形 \([0,1]^2\) 到 3D 空间的变形场。对于 2D 点 \(p\),其 3D 位置为 \(p' = \phi_\theta(p)\)。优化目标是最小化变形点与目标网格之间的对称 Chamfer Distance 加上边界约束损失
    • 设计动机:直接用 LRM 做前馈重建因训练数据太少(1200个)无法泛化;直接优化网格顶点需要精心设计正则化且容易陷入局部最优。MLP 的平滑感应偏置天然充当正则化器,鼓励变形的平滑性,避免了传统拓扑修复+参数化管线中的噪声和畸变问题
  3. VDM 数据集构建流程:

    • 功能:从 Objaverse 3D 物体中高效提取和处理 VDM 训练数据
    • 核心思路:(a) 用关键词过滤 Objaverse 物体(动物、角色等有机形状);(b) 开发 3D 套索工具让标注者选择感兴趣的部件切割边界;(c) 对提取部件密集采样点、去除内部点(winding number)、Screened Poisson 重建为单连通网格;(d) 用最小二乘拟合平面,将边界投影到平面上,用类似 Poisson Image Editing 的方法变形部件使边界共面;(e) 将部件缝合到方形网格上,随机上色、缩放、旋转增强。最终获得 1200 个 VDM patch,标注仅需 24 人时
    • 设计动机:没有公开 VDM 数据集是领域空白,直接从 3D 物体中提取部件比人工建模高效得多。Poisson 风格边界变形确保部件可以无缝贴合平面底座

损失函数 / 训练策略

多视角法线生成:标准扩散去噪损失,渲染随机视角作为输入使模型能处理各种输入视角。VDM 重建:对称 Chamfer Distance + 边界约束损失,每步采样网格点进行优化,约 3 分钟/步。

实验关键数据

主实验

方法 CLIPImg↑ CLIPText↑ 3D-FID↓
GenVDM (Ours) 0.8520 0.2701 192.7
Wonder3D 0.8246 0.2542 199.5
Magic123 0.8293 0.2510 213.2
LRM 0.8144 0.2510 239.9
Scalar DM (DepthAnything) 0.8223 0.2564 213.0

消融实验(VDM 参数化方式)

配置 CLIPImg↑ CLIPText↑ 3D-FID↓ 说明
重建网格(上界参考) 0.8440 0.2636 198.0 参数化前的网格
(a) 拓扑修复+Tutte 嵌入 0.8401 0.2617 209.9 拓扑修复不考虑畸变
(b) 网格优化 0.8245 0.2525 217.2 容易陷入局部最优
(c) Ours (MLP 变形场) 0.8521 0.2701 192.7 甚至优于参数化前的网格

关键发现

  • GenVDM 在所有指标上显著优于所有基线:比最接近的 Wonder3D 在 CLIPImg 上高 2.7%,3D-FID 降低 3.4%。这说明针对 VDM(局部几何印章)的专门设计比通用 3D 生成方法更有效
  • 标量位移图无法替代 VDM:DepthAnything 的标量 DM 正面视图看起来合理,但侧面因无法表示遮挡区域而失败
  • MLP 变形场是最佳参数化方案:不仅比拓扑修复和网格优化好,甚至比参数化前的原始网格指标还高,说明 MLP 的平滑偏置起到了去噪效果
  • 仅 1200 个训练样本就够用:在 Zero123++ 预训练基础上微调,少量数据即可适应 VDM 任务,展现了预训练模型的迁移能力

亮点与洞察

  • 瞄准 VDM 这一工业级但学术少见的表示:VDM 在 3D 建模工具中广泛使用但学术界几乎无人研究,选题精准地抓住了一个有实用价值的空白
  • MLP 做参数化是神来之笔:传统拓扑修复+参数化管线极其脆弱,MLP 的隐式偏置自然提供了平滑正则化,同时避免了网格优化的局部最优问题。这一方案可推广到其他需要网格参数化的场景
  • 数据构建流程值得借鉴:3D 套索工具+自动化处理管线,24 人时标注 1200 个样本,效率极高。Poisson 风格边界处理确保部件可无缝贴合底座的设计也很实用
  • 只生成法线图的简洁设计:去掉 RGB 生成的决策减少了任务复杂度,让模型能专注于几何质量

局限与展望

  • VDM 重建采用逐样本优化(每次约 6 分钟),远慢于前馈 LRM 方法,是最大的实用性瓶颈
  • 训练数据集仅 1200 个样本,类别多样性有限(主要是有机形状)
  • 薄结构生成存在失败案例:多视角法线图看起来合理但可能跨视角不一致,导致重建失败
  • 只有前半球视角,无法处理需要背面几何的情况
  • 未探索 VDM 的组合生成——同时生成多个互补的 VDM patch 并组装

相关工作与启发

  • vs Wonder3D:Wonder3D 为完整物体设计,生成局部 VDM 类形状(如单独的鼻子、耳朵)效果不佳;GenVDM 通过专门的相机布局和灰色背景设计更适合 VDM 生成
  • vs DepthAnything (标量 DM):标量 DM 只能表示高度场,无法处理悬挑和凹腔;VDM 的三通道位移向可表示任意复杂几何
  • vs LRM / Magic123:这些方法严重依赖纹理幻觉几何细节,剥离纹理后几何质量低;GenVDM 只关注法线/几何,细节更真实
  • 与 Geometry Image 的关系:VDM 概念上类似 Geometry Image,最近有工作用扩散模型生成 Geometry Image 来合成 3D 形状,但 GenVDM 专注于局部几何印章的特殊需求

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将生成式 AI 引入 VDM 这一工业重要但学术空白的领域,方法设计有多处创新
  • 实验充分度: ⭐⭐⭐⭐ 与多个基线对比,参数化方式消融详尽,但测试集仅 50 张图
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,流程图完整,每个设计选择都有对比验证
  • 价值: ⭐⭐⭐⭐⭐ 直接可用于 3D 建模工作流,首个公开 VDM 数据集对后续研究有重要价值

相关论文