CADDreamer: CAD Object Generation from Single-view Images¶

会议: CVPR 2025
arXiv: 2502.20732
代码: 无
领域: 3D视觉
关键词: CAD重建, 单视图3D生成, 边界表示, 扩散模型, 几何优化

一句话总结¶

提出 CADDreamer，通过语义增强的多视图扩散模型和几何拓扑提取模块，从单张RGB图像直接生成具有紧凑B-rep表示、清晰结构和锐利边缘的CAD模型，支持平面、圆柱、圆锥、球体、环面五种基元类型。

研究背景与动机¶

基于扩散模型的3D生成近年取得显著进展，但生成的网格通常是过度稠密、缺乏结构的三角网格，与人类设计师创建的紧凑、结构化、边缘锐利的CAD模型形成鲜明对比。这种差距严重限制了生成模型在游戏、制造业、产品设计等需要高质量结构化3D模型场景中的应用。

现有的 Image-to-CAD 方法主要有两类：基于检索-装配的方法需要庞大CAD数据库，且局限于隐式表面；基于 sketch-extrude 的方法虽然可以直接生成B-rep，但生成的物体局限于平面和圆柱。核心矛盾在于：扩散模型缺乏对高层几何结构（基元语义）的理解，而噪声和畸变使得精确的基元拟合和水密B-rep构建极具挑战性。

本文的切入角度：通过将基元语义编码到颜色空间并利用预训练扩散模型的强先验，让模型同时理解低层几何（法线图）和高层结构（基元语义图），再通过几何优化和拓扑保持提取生成完整水密的B-rep。

方法详解¶

整体框架¶

两个主模块：（1）多视图生成模块：从单视图RGB图像预测多视图法线图和语义基元图，重建3D网格并通过 Graph Cut 将其分割为基元对应的面片；（2）几何与拓扑提取模块：通过几何优化校正基元参数，利用拓扑保持提取方法计算基元交线、顶点和面，生成水密B-rep。

关键设计¶

语义增强的多视图2D扩散模型:
- 功能：从单视图法线图联合生成6个视角的法线图和语义基元图
- 核心思路：在 Wonder3D 的跨域扩散模型基础上微调，将7种语义标签（5种基元 + 背景 + 特征线）编码到 RGB 颜色空间，利用交叉视角和交叉域注意力机制保证几何和语义的多视图一致性；法线图送入 NeuS 重建3D网格，语义图通过反投影+Graph Cut 分割网格
- 设计动机：直接将语义信息编码到颜色空间，可以复用预训练扩散模型的强先验，让模型隐式理解高层CAD结构，而不需要设计额外的语义分割分支
几何优化算法（Primitive Stitching）:
- 功能：修正因重建噪声导致的基元参数不准确，恢复基元间的拓扑和几何关系
- 核心思路：在网格分割边界上采样 \(k\) 个缝合点，将每个缝合点投影到相邻两个基元面上，最小化投影点之间的距离 \(f_{stch}(v_i) = \|\pi(v_i, P_A) - \pi(v_i, P_B)\|\)；同时通过约束条件维持平行（共享轴方向）、共线（\(p_A = p_B + \vec{x}_B t\)）和垂直（\(\vec{x}_C \cdot \vec{x}_D = 0\)）关系；使用 L-BFGS 优化
- 设计动机：即使微小的基元参数偏差也会导致交线计算失败，产生悬挂面或非水密B-rep；几何关系约束确保生成CAD模型的结构完整性
拓扑保持B-rep构建:
- 功能：从分割网格提取拓扑表示（顶点、边、面），引导基元交线计算，生成水密B-rep
- 核心思路：将网格面片对应拓扑面，两面片共享边界对应拓扑边，多于两个面片连接的顶点作为拓扑顶点；利用拓扑引导计算基元间交线（选择与拓扑边最近的交线），再用两条相邻交线的交点作为CAD顶点，最后用顶点裁剪交线得到CAD边
- 设计动机：由于重建网格是水密的，提取的拓扑表示也是水密的，利用此拓扑引导可以避免错误的交线选择，确保最终B-rep的完整性

损失函数 / 训练策略¶

多视图扩散模型在 Wonder3D 基础上微调，分别微调了两个 VAE decoder 用于法线图和基元图生成
NeuS 重建移除了多视图颜色输入和纹理重建损失（CAD不需要纹理）
基元参数提取使用 RANSAC 算法，几何优化使用 L-BFGS
训练集从 ABC 和 DeepCAD 数据集精选 30,000 个无缝 CAD 模型，29,000 训练 + 1,000 测试

实验关键数据¶

主实验¶

方法	CD (↓)	NC (↑)	SEG(V) (↑)	SEG(P) (↑)
CRM	3.97	64.4%	40.2%	49.3%
LRM	4.26	63.6%	38.4%	46.8%
InstantMesh	4.61	58.3%	35.1%	41.7%
SyncDreamer	5.49	48.9%	29.8%	33.2%
CADDreamer	1.27	92.6%	95.7%	97.9%

B-rep 质量¶

方法	HF (悬挂面比例) ↓	CD (↓)
CRM	35.2%	9.74
LRM	39.6%	11.6
InstantMesh	43.6%	13.1
SyncDreamer	58.5%	15.4
CADDreamer	2.4%	1.36

关键发现¶

CADDreamer 在所有指标上大幅领先：Chamfer Distance 比最好的基线低 68%，法线一致性高 28 个百分点
基元分割准确率达 97.9%（基于基元数量），说明语义增强扩散模型能准确理解CAD结构
悬挂面比例仅 2.4%，远低于其他方法的 35-58%，体现了几何优化和拓扑保持提取的有效性
在真实世界图像上也能成功重建高质量CAD模型，展现了良好的泛化能力

亮点与洞察¶

语义编码到颜色空间的思路非常巧妙：复用了预训练扩散模型的图像生成能力来理解高层CAD结构，避免了从零训练语义分支
从分割网格到水密B-rep的完整流程解决了一个长期难题：如何从噪声较大的生成网格中提取精确的CAD模型
方法支持5种基元类型，比 sketch-extrude 方法（仅平面+圆柱）更通用
几何优化中的"缝合"思想可推广到其他需要恢复几何关系的任务

局限与展望¶

受限于单视图输入的固有信息不足，极端遮挡或复杂视角下可能无法检测所有基元
图像数量和分辨率限制了对极精细几何特征的检测
不支持自由曲面（NURBS等），仅限于五种基本几何基元
拓扑提取依赖于重建网格的水密性，网格质量差时可能失败

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个从单视图图像直接生成多基元B-rep CAD模型的方法
实验充分度: ⭐⭐⭐⭐ 合成+真实实验均有，缺少与更多CAD重建方法的对比
写作质量: ⭐⭐⭐⭐ 流程清晰，图示丰富
价值: ⭐⭐⭐⭐⭐ 对制造业和产品设计有直接应用价值