CADDreamer: CAD Object Generation from Single-view Images¶
会议: CVPR 2025
arXiv: 2502.20732
代码: 无
领域: 3D视觉
关键词: CAD重建, 单视图3D生成, 边界表示, 扩散模型, 几何优化
一句话总结¶
提出 CADDreamer,通过语义增强的多视图扩散模型和几何拓扑提取模块,从单张RGB图像直接生成具有紧凑B-rep表示、清晰结构和锐利边缘的CAD模型,支持平面、圆柱、圆锥、球体、环面五种基元类型。
研究背景与动机¶
基于扩散模型的3D生成近年取得显著进展,但生成的网格通常是过度稠密、缺乏结构的三角网格,与人类设计师创建的紧凑、结构化、边缘锐利的CAD模型形成鲜明对比。这种差距严重限制了生成模型在游戏、制造业、产品设计等需要高质量结构化3D模型场景中的应用。
现有的 Image-to-CAD 方法主要有两类:基于检索-装配的方法需要庞大CAD数据库,且局限于隐式表面;基于 sketch-extrude 的方法虽然可以直接生成B-rep,但生成的物体局限于平面和圆柱。核心矛盾在于:扩散模型缺乏对高层几何结构(基元语义)的理解,而噪声和畸变使得精确的基元拟合和水密B-rep构建极具挑战性。
本文的切入角度:通过将基元语义编码到颜色空间并利用预训练扩散模型的强先验,让模型同时理解低层几何(法线图)和高层结构(基元语义图),再通过几何优化和拓扑保持提取生成完整水密的B-rep。
方法详解¶
整体框架¶
两个主模块:(1)多视图生成模块:从单视图RGB图像预测多视图法线图和语义基元图,重建3D网格并通过 Graph Cut 将其分割为基元对应的面片;(2)几何与拓扑提取模块:通过几何优化校正基元参数,利用拓扑保持提取方法计算基元交线、顶点和面,生成水密B-rep。
关键设计¶
-
语义增强的多视图2D扩散模型:
- 功能:从单视图法线图联合生成6个视角的法线图和语义基元图
- 核心思路:在 Wonder3D 的跨域扩散模型基础上微调,将7种语义标签(5种基元 + 背景 + 特征线)编码到 RGB 颜色空间,利用交叉视角和交叉域注意力机制保证几何和语义的多视图一致性;法线图送入 NeuS 重建3D网格,语义图通过反投影+Graph Cut 分割网格
- 设计动机:直接将语义信息编码到颜色空间,可以复用预训练扩散模型的强先验,让模型隐式理解高层CAD结构,而不需要设计额外的语义分割分支
-
几何优化算法(Primitive Stitching):
- 功能:修正因重建噪声导致的基元参数不准确,恢复基元间的拓扑和几何关系
- 核心思路:在网格分割边界上采样 \(k\) 个缝合点,将每个缝合点投影到相邻两个基元面上,最小化投影点之间的距离 \(f_{stch}(v_i) = \|\pi(v_i, P_A) - \pi(v_i, P_B)\|\);同时通过约束条件维持平行(共享轴方向)、共线(\(p_A = p_B + \vec{x}_B t\))和垂直(\(\vec{x}_C \cdot \vec{x}_D = 0\))关系;使用 L-BFGS 优化
- 设计动机:即使微小的基元参数偏差也会导致交线计算失败,产生悬挂面或非水密B-rep;几何关系约束确保生成CAD模型的结构完整性
-
拓扑保持B-rep构建:
- 功能:从分割网格提取拓扑表示(顶点、边、面),引导基元交线计算,生成水密B-rep
- 核心思路:将网格面片对应拓扑面,两面片共享边界对应拓扑边,多于两个面片连接的顶点作为拓扑顶点;利用拓扑引导计算基元间交线(选择与拓扑边最近的交线),再用两条相邻交线的交点作为CAD顶点,最后用顶点裁剪交线得到CAD边
- 设计动机:由于重建网格是水密的,提取的拓扑表示也是水密的,利用此拓扑引导可以避免错误的交线选择,确保最终B-rep的完整性
损失函数 / 训练策略¶
- 多视图扩散模型在 Wonder3D 基础上微调,分别微调了两个 VAE decoder 用于法线图和基元图生成
- NeuS 重建移除了多视图颜色输入和纹理重建损失(CAD不需要纹理)
- 基元参数提取使用 RANSAC 算法,几何优化使用 L-BFGS
- 训练集从 ABC 和 DeepCAD 数据集精选 30,000 个无缝 CAD 模型,29,000 训练 + 1,000 测试
实验关键数据¶
主实验¶
| 方法 | CD (↓) | NC (↑) | SEG(V) (↑) | SEG(P) (↑) |
|---|---|---|---|---|
| CRM | 3.97 | 64.4% | 40.2% | 49.3% |
| LRM | 4.26 | 63.6% | 38.4% | 46.8% |
| InstantMesh | 4.61 | 58.3% | 35.1% | 41.7% |
| SyncDreamer | 5.49 | 48.9% | 29.8% | 33.2% |
| CADDreamer | 1.27 | 92.6% | 95.7% | 97.9% |
B-rep 质量¶
| 方法 | HF (悬挂面比例) ↓ | CD (↓) |
|---|---|---|
| CRM | 35.2% | 9.74 |
| LRM | 39.6% | 11.6 |
| InstantMesh | 43.6% | 13.1 |
| SyncDreamer | 58.5% | 15.4 |
| CADDreamer | 2.4% | 1.36 |
关键发现¶
- CADDreamer 在所有指标上大幅领先:Chamfer Distance 比最好的基线低 68%,法线一致性高 28 个百分点
- 基元分割准确率达 97.9%(基于基元数量),说明语义增强扩散模型能准确理解CAD结构
- 悬挂面比例仅 2.4%,远低于其他方法的 35-58%,体现了几何优化和拓扑保持提取的有效性
- 在真实世界图像上也能成功重建高质量CAD模型,展现了良好的泛化能力
亮点与洞察¶
- 语义编码到颜色空间的思路非常巧妙:复用了预训练扩散模型的图像生成能力来理解高层CAD结构,避免了从零训练语义分支
- 从分割网格到水密B-rep的完整流程解决了一个长期难题:如何从噪声较大的生成网格中提取精确的CAD模型
- 方法支持5种基元类型,比 sketch-extrude 方法(仅平面+圆柱)更通用
- 几何优化中的"缝合"思想可推广到其他需要恢复几何关系的任务
局限与展望¶
- 受限于单视图输入的固有信息不足,极端遮挡或复杂视角下可能无法检测所有基元
- 图像数量和分辨率限制了对极精细几何特征的检测
- 不支持自由曲面(NURBS等),仅限于五种基本几何基元
- 拓扑提取依赖于重建网格的水密性,网格质量差时可能失败
相关工作与启发¶
- Wonder3D、SyncDreamer 等多视图扩散模型提供了基础的跨视角一致性生成能力
- Point2CAD 提供了从点云到B-rep的流程,但需要精确的输入
- RANSAC 基元提取 + 几何优化的思路可借鉴到其他逆向工程任务
- 该工作展示了扩散模型在结构化3D生成方面的巨大潜力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个从单视图图像直接生成多基元B-rep CAD模型的方法
- 实验充分度: ⭐⭐⭐⭐ 合成+真实实验均有,缺少与更多CAD重建方法的对比
- 写作质量: ⭐⭐⭐⭐ 流程清晰,图示丰富
- 价值: ⭐⭐⭐⭐⭐ 对制造业和产品设计有直接应用价值
相关论文¶
- [CVPR 2025] MEt3R: Measuring Multi-View Consistency in Generated Images
- [CVPR 2026] BRepGaussian: CAD Reconstruction from Multi-View Images with Gaussian Splatting
- [ICCV 2025] AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction
- [CVPR 2025] Compass Control: Multi Object Orientation Control for Text-to-Image Generation
- [CVPR 2025] MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes