跳转至

CADDreamer: CAD Object Generation from Single-view Images

会议: CVPR 2025
arXiv: 2502.20732
代码: 无
领域: 3D视觉
关键词: CAD重建, 单视图3D生成, 边界表示, 扩散模型, 几何优化

一句话总结

提出 CADDreamer,通过语义增强的多视图扩散模型和几何拓扑提取模块,从单张RGB图像直接生成具有紧凑B-rep表示、清晰结构和锐利边缘的CAD模型,支持平面、圆柱、圆锥、球体、环面五种基元类型。

研究背景与动机

基于扩散模型的3D生成近年取得显著进展,但生成的网格通常是过度稠密、缺乏结构的三角网格,与人类设计师创建的紧凑、结构化、边缘锐利的CAD模型形成鲜明对比。这种差距严重限制了生成模型在游戏、制造业、产品设计等需要高质量结构化3D模型场景中的应用。

现有的 Image-to-CAD 方法主要有两类:基于检索-装配的方法需要庞大CAD数据库,且局限于隐式表面;基于 sketch-extrude 的方法虽然可以直接生成B-rep,但生成的物体局限于平面和圆柱。核心矛盾在于:扩散模型缺乏对高层几何结构(基元语义)的理解,而噪声和畸变使得精确的基元拟合和水密B-rep构建极具挑战性

本文的切入角度:通过将基元语义编码到颜色空间并利用预训练扩散模型的强先验,让模型同时理解低层几何(法线图)和高层结构(基元语义图),再通过几何优化和拓扑保持提取生成完整水密的B-rep。

方法详解

整体框架

两个主模块:(1)多视图生成模块:从单视图RGB图像预测多视图法线图和语义基元图,重建3D网格并通过 Graph Cut 将其分割为基元对应的面片;(2)几何与拓扑提取模块:通过几何优化校正基元参数,利用拓扑保持提取方法计算基元交线、顶点和面,生成水密B-rep。

关键设计

  1. 语义增强的多视图2D扩散模型:

    • 功能:从单视图法线图联合生成6个视角的法线图和语义基元图
    • 核心思路:在 Wonder3D 的跨域扩散模型基础上微调,将7种语义标签(5种基元 + 背景 + 特征线)编码到 RGB 颜色空间,利用交叉视角和交叉域注意力机制保证几何和语义的多视图一致性;法线图送入 NeuS 重建3D网格,语义图通过反投影+Graph Cut 分割网格
    • 设计动机:直接将语义信息编码到颜色空间,可以复用预训练扩散模型的强先验,让模型隐式理解高层CAD结构,而不需要设计额外的语义分割分支
  2. 几何优化算法(Primitive Stitching):

    • 功能:修正因重建噪声导致的基元参数不准确,恢复基元间的拓扑和几何关系
    • 核心思路:在网格分割边界上采样 \(k\) 个缝合点,将每个缝合点投影到相邻两个基元面上,最小化投影点之间的距离 \(f_{stch}(v_i) = \|\pi(v_i, P_A) - \pi(v_i, P_B)\|\);同时通过约束条件维持平行(共享轴方向)、共线(\(p_A = p_B + \vec{x}_B t\))和垂直(\(\vec{x}_C \cdot \vec{x}_D = 0\))关系;使用 L-BFGS 优化
    • 设计动机:即使微小的基元参数偏差也会导致交线计算失败,产生悬挂面或非水密B-rep;几何关系约束确保生成CAD模型的结构完整性
  3. 拓扑保持B-rep构建:

    • 功能:从分割网格提取拓扑表示(顶点、边、面),引导基元交线计算,生成水密B-rep
    • 核心思路:将网格面片对应拓扑面,两面片共享边界对应拓扑边,多于两个面片连接的顶点作为拓扑顶点;利用拓扑引导计算基元间交线(选择与拓扑边最近的交线),再用两条相邻交线的交点作为CAD顶点,最后用顶点裁剪交线得到CAD边
    • 设计动机:由于重建网格是水密的,提取的拓扑表示也是水密的,利用此拓扑引导可以避免错误的交线选择,确保最终B-rep的完整性

损失函数 / 训练策略

  • 多视图扩散模型在 Wonder3D 基础上微调,分别微调了两个 VAE decoder 用于法线图和基元图生成
  • NeuS 重建移除了多视图颜色输入和纹理重建损失(CAD不需要纹理)
  • 基元参数提取使用 RANSAC 算法,几何优化使用 L-BFGS
  • 训练集从 ABC 和 DeepCAD 数据集精选 30,000 个无缝 CAD 模型,29,000 训练 + 1,000 测试

实验关键数据

主实验

方法 CD (↓) NC (↑) SEG(V) (↑) SEG(P) (↑)
CRM 3.97 64.4% 40.2% 49.3%
LRM 4.26 63.6% 38.4% 46.8%
InstantMesh 4.61 58.3% 35.1% 41.7%
SyncDreamer 5.49 48.9% 29.8% 33.2%
CADDreamer 1.27 92.6% 95.7% 97.9%

B-rep 质量

方法 HF (悬挂面比例) ↓ CD (↓)
CRM 35.2% 9.74
LRM 39.6% 11.6
InstantMesh 43.6% 13.1
SyncDreamer 58.5% 15.4
CADDreamer 2.4% 1.36

关键发现

  • CADDreamer 在所有指标上大幅领先:Chamfer Distance 比最好的基线低 68%,法线一致性高 28 个百分点
  • 基元分割准确率达 97.9%(基于基元数量),说明语义增强扩散模型能准确理解CAD结构
  • 悬挂面比例仅 2.4%,远低于其他方法的 35-58%,体现了几何优化和拓扑保持提取的有效性
  • 在真实世界图像上也能成功重建高质量CAD模型,展现了良好的泛化能力

亮点与洞察

  • 语义编码到颜色空间的思路非常巧妙:复用了预训练扩散模型的图像生成能力来理解高层CAD结构,避免了从零训练语义分支
  • 从分割网格到水密B-rep的完整流程解决了一个长期难题:如何从噪声较大的生成网格中提取精确的CAD模型
  • 方法支持5种基元类型,比 sketch-extrude 方法(仅平面+圆柱)更通用
  • 几何优化中的"缝合"思想可推广到其他需要恢复几何关系的任务

局限与展望

  • 受限于单视图输入的固有信息不足,极端遮挡或复杂视角下可能无法检测所有基元
  • 图像数量和分辨率限制了对极精细几何特征的检测
  • 不支持自由曲面(NURBS等),仅限于五种基本几何基元
  • 拓扑提取依赖于重建网格的水密性,网格质量差时可能失败

相关工作与启发

  • Wonder3D、SyncDreamer 等多视图扩散模型提供了基础的跨视角一致性生成能力
  • Point2CAD 提供了从点云到B-rep的流程,但需要精确的输入
  • RANSAC 基元提取 + 几何优化的思路可借鉴到其他逆向工程任务
  • 该工作展示了扩散模型在结构化3D生成方面的巨大潜力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个从单视图图像直接生成多基元B-rep CAD模型的方法
  • 实验充分度: ⭐⭐⭐⭐ 合成+真实实验均有,缺少与更多CAD重建方法的对比
  • 写作质量: ⭐⭐⭐⭐ 流程清晰,图示丰富
  • 价值: ⭐⭐⭐⭐⭐ 对制造业和产品设计有直接应用价值

相关论文