GenVDM: Generating Vector Displacement Maps From a Single Image¶

会议: CVPR 2025
arXiv: 2503.00605
代码: https://yyuezhi.github.io/GenVDM/
领域: 3D视觉
关键词: 向量位移图, 单图3D重建, 多视图法线生成, 神经变形场, 3D建模

一句话总结¶

提出首个从单张图像生成 Vector Displacement Map (VDM) 的方法，通过微调 Zero123++ 生成多视角法线图、使用神经 SDF 重建网格、再用神经变形场参数化为 VDM 图像，并构建了首个学术 VDM 数据集，为 3D 艺术家提供了按需生成自定义几何细节印章的能力。

研究背景与动机¶

领域现状：3D 生成模型虽然发展迅速，但在艺术工作流中仍未被广泛采用，原因有二：(1) 生成精细几何细节困难；(2) 缺乏艺术家需要的精确空间和组合控制。现有 Image-to-3D 方法（LRM、Wonder3D、Magic123 等）专注于生成完整物体而非局部几何细节。

现有痛点：(1) VDM 是 3D 建模中广泛支持的细节印章表示（Blender、Maya、ZBrush 等均支持），但创作 VDM 极为困难，艺术家通常依赖昂贵的第三方印章包，定制性和通用性受限；(2) 现有 Image-to-3D 方法不生成参数化 2D 域，无法直接用作印章；(3) 单视图深度估计无法捕获遮挡区域、悬挑和凹腔等复杂几何。

核心矛盾：VDM 需要表示任意 3D 位移（包括内凹和悬挑），而现有的深度图/标量位移图只能表示高度场，无法处理遮挡和自遮挡。同时没有公开的 VDM 数据集用于训练。

本文目标 如何从单张 RGB 图像生成高质量的 VDM？具体包括：(1) 如何生成能解决遮挡的多视角几何表示；(2) 如何将重建的网格参数化为 VDM 图像格式；(3) 如何构建训练数据集。

切入角度：作者观察到 VDM 是比完整物体更小、更简单的几何区域，可以用少量数据微调的扩散模型来生成其多视角法线图。关键洞察是只需要生成法线图（不需要 RGB），因为只关注几何细节。使用神经变形场（MLP）参数化 VDM 既能自然平滑又能处理复杂拓扑。

核心 idea：用多视角法线生成解决遮挡问题，用神经 SDF 重建网格，再用 MLP 变形场将网格参数化为 VDM 图像，以仅 1200 个训练样本实现了高质量的零样本 VDM 生成。

方法详解¶

整体框架¶

输入一张 RGB 图像（可来自文本到图像模型），经过三步流程输出 VDM 图像：(1) 多视角法线生成——微调 Zero123++ 从输入图像生成 6 个预定义视角的法线图；(2) 网格重建——用 Wonder3D 的神经 SDF 优化从多视角法线重建网格；(3) VDM 参数化——用 MLP 变形场将 2D 正方形变形拟合到重建网格，得到 VDM 图像。整个重建流程约 6 分钟。

关键设计¶

多视角法线图生成:
- 功能：从单张图像生成 6 个视角的法线图，解决单视图的遮挡问题
- 核心思路：微调 Zero123++（基于 Stable Diffusion 的 Image-to-Multiview 模型）只生成法线图而非 RGB。重新设计了 6 个相机位姿：四个水平方向 \((0°, ±30°)\) 和 \((0°, ±60°)\)，两个垂直方向 \((±45°, 0°)\)，不包含背面视角因为 VDM 不需要。使用正交投影减少畸变。输入图像会添加灰色方形背景，模拟 VDM 应用在平面上的外观。在 8 块 A100 上微调 3 天
- 设计动机：VDM 的几何可能包含悬挑和凹腔，单视图深度估计无法捕获这些被遮挡的部分。只生成法线不生成 RGB 是因为 VDM 只关注几何。重新设计的相机布局（不包含背面）符合 VDM 只需前半球信息的特点
神经 SDF 重建 + VDM 参数化（两步重建）:
- 功能：从多视角法线图重建 3D 网格并将其参数化为 VDM 图像
- 核心思路：第一步用 Wonder3D 的方法优化神经 SDF，通过可微渲染使预测法线与生成的多视角法线对齐（去掉了 \(L_{rgb}\) 因为不预测 RGB）。由于灰色方形背景的设计，重建出的网格包含一个平面底座，可以轻松分离出附在其上的 VDM 部件。第二步用 MLP \(\phi_\theta\) 定义从 2D 正方形 \([0,1]^2\) 到 3D 空间的变形场。对于 2D 点 \(p\)，其 3D 位置为 \(p' = \phi_\theta(p)\)。优化目标是最小化变形点与目标网格之间的对称 Chamfer Distance 加上边界约束损失
- 设计动机：直接用 LRM 做前馈重建因训练数据太少（1200个）无法泛化；直接优化网格顶点需要精心设计正则化且容易陷入局部最优。MLP 的平滑感应偏置天然充当正则化器，鼓励变形的平滑性，避免了传统拓扑修复+参数化管线中的噪声和畸变问题
VDM 数据集构建流程:
- 功能：从 Objaverse 3D 物体中高效提取和处理 VDM 训练数据
- 核心思路：(a) 用关键词过滤 Objaverse 物体（动物、角色等有机形状）；(b) 开发 3D 套索工具让标注者选择感兴趣的部件切割边界；(c) 对提取部件密集采样点、去除内部点（winding number）、Screened Poisson 重建为单连通网格；(d) 用最小二乘拟合平面，将边界投影到平面上，用类似 Poisson Image Editing 的方法变形部件使边界共面；(e) 将部件缝合到方形网格上，随机上色、缩放、旋转增强。最终获得 1200 个 VDM patch，标注仅需 24 人时
- 设计动机：没有公开 VDM 数据集是领域空白，直接从 3D 物体中提取部件比人工建模高效得多。Poisson 风格边界变形确保部件可以无缝贴合平面底座

损失函数 / 训练策略¶

多视角法线生成：标准扩散去噪损失，渲染随机视角作为输入使模型能处理各种输入视角。VDM 重建：对称 Chamfer Distance + 边界约束损失，每步采样网格点进行优化，约 3 分钟/步。

实验关键数据¶

主实验¶

方法	CLIPImg↑	CLIPText↑	3D-FID↓
GenVDM (Ours)	0.8520	0.2701	192.7
Wonder3D	0.8246	0.2542	199.5
Magic123	0.8293	0.2510	213.2
LRM	0.8144	0.2510	239.9
Scalar DM (DepthAnything)	0.8223	0.2564	213.0

消融实验（VDM 参数化方式）¶

配置	CLIPImg↑	CLIPText↑	3D-FID↓	说明
重建网格（上界参考）	0.8440	0.2636	198.0	参数化前的网格
(a) 拓扑修复+Tutte 嵌入	0.8401	0.2617	209.9	拓扑修复不考虑畸变
(b) 网格优化	0.8245	0.2525	217.2	容易陷入局部最优
(c) Ours (MLP 变形场)	0.8521	0.2701	192.7	甚至优于参数化前的网格

关键发现¶

GenVDM 在所有指标上显著优于所有基线：比最接近的 Wonder3D 在 CLIPImg 上高 2.7%，3D-FID 降低 3.4%。这说明针对 VDM（局部几何印章）的专门设计比通用 3D 生成方法更有效
标量位移图无法替代 VDM：DepthAnything 的标量 DM 正面视图看起来合理，但侧面因无法表示遮挡区域而失败
MLP 变形场是最佳参数化方案：不仅比拓扑修复和网格优化好，甚至比参数化前的原始网格指标还高，说明 MLP 的平滑偏置起到了去噪效果
仅 1200 个训练样本就够用：在 Zero123++ 预训练基础上微调，少量数据即可适应 VDM 任务，展现了预训练模型的迁移能力

亮点与洞察¶

瞄准 VDM 这一工业级但学术少见的表示：VDM 在 3D 建模工具中广泛使用但学术界几乎无人研究，选题精准地抓住了一个有实用价值的空白
MLP 做参数化是神来之笔：传统拓扑修复+参数化管线极其脆弱，MLP 的隐式偏置自然提供了平滑正则化，同时避免了网格优化的局部最优问题。这一方案可推广到其他需要网格参数化的场景
数据构建流程值得借鉴：3D 套索工具+自动化处理管线，24 人时标注 1200 个样本，效率极高。Poisson 风格边界处理确保部件可无缝贴合底座的设计也很实用
只生成法线图的简洁设计：去掉 RGB 生成的决策减少了任务复杂度，让模型能专注于几何质量

局限与展望¶

VDM 重建采用逐样本优化（每次约 6 分钟），远慢于前馈 LRM 方法，是最大的实用性瓶颈
训练数据集仅 1200 个样本，类别多样性有限（主要是有机形状）
薄结构生成存在失败案例：多视角法线图看起来合理但可能跨视角不一致，导致重建失败
只有前半球视角，无法处理需要背面几何的情况
未探索 VDM 的组合生成——同时生成多个互补的 VDM patch 并组装

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将生成式 AI 引入 VDM 这一工业重要但学术空白的领域，方法设计有多处创新
实验充分度: ⭐⭐⭐⭐ 与多个基线对比，参数化方式消融详尽，但测试集仅 50 张图
写作质量: ⭐⭐⭐⭐ 问题定义清晰，流程图完整，每个设计选择都有对比验证
价值: ⭐⭐⭐⭐⭐ 直接可用于 3D 建模工作流，首个公开 VDM 数据集对后续研究有重要价值