Zero-Shot Inexact CAD Model Alignment from a Single Image¶

会议: ICCV 2025
arXiv: 2507.03292
代码: https://zerocad9d.github.io/
领域: 3D Vision
关键词: CAD对齐, 零样本, 9-DoF位姿估计, 基础模型, NOC

一句话总结¶

提出一种弱监督的9-DoF CAD模型对齐方法，通过增强DINOv2特征的几何感知能力并在归一化物体坐标（NOC）空间进行稠密对齐优化，实现无需位姿标注、可泛化到未见类别的零样本3D对齐。

研究背景与动机¶

从单张图像恢复3D场景结构是一个高度病态问题（深度模糊+大面积遮挡）。一种实用方案是从数据库检索近似3D模型并将其与图像中目标物体对齐（9-DoF：6D刚体变换 + 3D各向异性缩放）。

现有方法的局限： - 有监督方法（ROCA、SPARC）：依赖RGB+深度+CAD模型+9-DoF位姿的标注四元组，只能处理训练过的有限类别 - 合成数据方法（DiffCAD）：依赖光照真实的合成场景（3D-FRONT），类别受限且存在域差异 - 基础模型方法（FoundationPose）：设计用于6-DoF任务和精确匹配（模型纹理/形状一致），对非精确匹配的检索模型表现差 - DINOv2特征的固有缺陷：(1) 对称部件（如椅子左右腿）特征高度相似，无法区分；(2) 对纹理变化敏感，难以处理无纹理模型

核心洞察：DINOv2特征虽然无法直接区分对称部分，但可能已包含预测部件位置的潜在信息——只需通过轻量适配器重组这些特征。

方法详解¶

整体框架¶

粗到细的位姿估计流程： 1. 粗对齐：将图像和3D模型编码到共享特征空间，通过最近邻匹配建立2D-3D对应关系，用RANSAC求解初始位姿 2. 细对齐：在NOC空间进行稠密图像级对齐优化，通过可微渲染反向传播优化位姿参数

关键设计¶

几何感知特征适配器：训练一个轻量MLP $E_\theta$ 将DINOv2特征转换为几何感知特征。使用来自ShapeNet的9类CAD模型渲染+扩散模型增广数据（共300K图像），双目标训练：

NOC预测损失：鼓励特征包含3D位置信息 $$\mathcal{L}_{\text{NOC}} = \frac{1}{n \cdot h \cdot w}\sum_{i=1}^{n}\|D_\phi(E_\theta(\text{DINO}(\mathbf{R}_i))) - \mathbf{N}_i\|_2^2$$

几何一致性三元组损失：确保同一部件跨视角特征一致，几何上远离的部件特征不同 $$\mathcal{L}_{\text{triplet}} = \frac{1}{|\mathcal{T}|}\sum_{(\mathbf{a},\mathbf{p},\mathbf{n})\in\mathcal{T}}[d(\mathbf{a},\mathbf{n}) - d(\mathbf{a},\mathbf{p}) + \alpha]_+$$ 正样本：3D距离 $\leq \tau_{\text{dist}}^+=0.02$ 的点；负样本：距离 $\geq \tau_{\text{dist}}^-=0.4$ 且特征余弦相似度 $> \tau_{\text{feat}}^-=0.75$ 的点（困难负样本挖掘，专门针对DINOv2无法区分的对称部件）。

最终特征融合DINOv2和适配器输出：$E_f(\mathbf{I}) = (1-\omega)\cdot\hat{\text{DINO}}(\mathbf{I}) \oplus \omega\cdot\hat{E}_\theta(\text{DINO}(\mathbf{I}))$（$\omega=0.5$）。

3D模型特征体素网格：对CAD模型从36个视角渲染+7倍增广（共288张图像），用$E_f$提取特征后反投影到3D体素网格（$100^3$），跨视角平均得到统一的3D特征表示。对体素网格做多尺度下采样-上采样平滑。
稠密图像对齐优化（NOC空间）：将输入图像通过最近邻匹配转为NOC map $\mathbf{N}^\mathbf{I}$（每个像素特征找最近3D体素，该体素位置即为NOC值）。优化三个损失：
- NOC对齐损失：$\mathcal{L}_{\text{NOC-A}} = \frac{1}{m}\|\mathbf{M} \odot (\mathbf{N}^\mathbf{I} - \mathbf{N}^t)\|_1$
- 轮廓损失：$\mathcal{L}_{\text{mask}} = \frac{1}{HW}\|\mathbf{S}^\mathbf{I} - \mathbf{S}^t\|_1$（使用SAM分割+SoftRasterizer可微渲染）
- 深度损失：$\mathcal{L}_{\text{depth}} = \frac{1}{m}\|\mathbf{M} \odot (\mathbf{D}^\mathbf{I} - \mathbf{D}^t)\|_1$（使用DepthAnything预测度量深度）

关键优势：NOC map由最近邻匹配得到，天然对特征空间的全局平移/缩放不变，比直接用神经网络预测NOC更鲁棒地处理域差异。

损失函数 / 训练策略¶

适配器训练：$\mathcal{L}_{\text{adapter}} = (1-\beta)\mathcal{L}_{\text{NOC}} + \beta\mathcal{L}_{\text{triplet}}$，$\beta=0.1$
2层MLP适配器 + 1层MLP解码器（训练后丢弃解码器）
AdamW优化器，lr=3e-4，batch=140
粗对齐使用RANSAC + 度量深度反投影的3D-3D对应求解
细对齐使用Adam, lr=0.005，PyTorch3D可微渲染

实验关键数据¶

主实验（ScanNet25k, 9-DoF NMS对齐精度）¶

方法	监督类型	Bathtub	Chair	Display	Sofa	Table	Avg Cat.↑	Avg Inst.↑
ROCA	全监督	22.5	41.0	30.4	15.9	14.6	21.5	27.4
SPARC	全监督	26.7	52.6	22.5	32.7	17.7	27.3	33.9
FoundationPose(9D)	弱监督	20.0	41.8	23.6	15.0	17.5	19.2	25.7
Ours	弱监督	16.7	49.3	24.1	38.1	16.5	23.1	30.1

唯一超越有监督ROCA的弱监督方法（平均类别+1.6%，平均实例+2.7%）。

消融实验（ScanNet25k, 粗-细对齐组合）¶

粗对齐	细对齐	Avg Cat.↑	Avg Inst.↑
DINOv2	—	13.1	18.8
DINOv2	Ours(NOC)	17.3	24.2
Ours	—	18.3	26.0
Ours	FM(特征匹配)	18.3	26.1
Ours	Ours(NOC)	23.1	30.1

几何感知特征比DINOv2提升+5.2%/+7.3%；NOC稠密优化比不做细对齐提升+4.8%/+4.1%，比特征匹配细对齐(FM)提升+4.8%/+4.0%。

SUN2CAD未见类别泛化（20类，单视图精度）¶

方法	监督	piano	printer	lamp	mug	oven	Avg Cat.↑	Avg Inst.↑
SPARC	全监督	27.8	14.1	3.0	0.0	0.0	6.9	4.9
DINOv2	无	44.4	7.6	5.4	0.0	7.1	11.6	7.3
Ours	弱监督	50.0	25.0	6.1	10.2	57.1	24.5	17.6

在20个未见类别上以+12.7%大幅超越最强基线，18/20类优于SPARC。

关键发现¶

$\beta=0.1$（三元组损失权重10%）时NOC预测误差最低——过多对比学习会牺牲位置预测能力
特征融合$\omega=0.5$最优——DINOv2的语义信息与适配器的几何信息互补
三个稠密对齐损失互补：NOC改善缩放和旋转，深度改善平移和旋转，轮廓进一步提升
最近邻匹配预测NOC比神经网络直接回归更鲁棒（对域差异不变）

亮点与洞察¶

困难负样本设计精巧：三元组中专门选择DINOv2无法区分（高余弦相似度）但3D距离远的点作为负样本，精准打击基础特征的弱点
NOC空间比特征空间更适合稠密对齐：NOC map总是平滑的，可用简单光栅化渲染（无需网络推理），且最近邻匹配对特征空间的全局偏移不变
极强泛化能力：仅用9类训练即可泛化到20个全新类别，超越需要类别先验的有监督方法
引入SUN2CAD新基准填补了未见类别9-DoF对齐评估的空白

局限与展望¶

对大面积遮挡/裁剪的物体（如桌子、浴缸、床）粗对齐不够鲁棒，缩放和旋转估计受影响
依赖SAM的分割质量和DepthAnything的深度质量
适配器仍需在ShapeNet 9类上训练——更大规模的CAD渲染训练可能进一步提升
每个物体的特征体素网格构建需要288张图像的推理，实时性受限
SUN2CAD的标注源自3D包围盒粗对齐+人工微调，精度有限

评分¶

新颖性: ⭐⭐⭐⭐ (特征适配+NOC优化的组合设计有效)
实验充分度: ⭐⭐⭐⭐⭐ (多基线对比+SUN2CAD新基准+详尽消融+超参分析)
写作质量: ⭐⭐⭐⭐ (问题定义清晰，流程图直观)
价值: ⭐⭐⭐⭐⭐ (零样本泛化能力使实际部署可行性大增)