Zero-Shot Multi-Object Scene Completion¶

会议: ECCV 2024
arXiv: 2403.14628
代码: 项目页
领域: 3D视觉

一句话总结¶

提出OctMAE，一种融合Octree U-Net和隐空间3D MAE的混合架构，从单张RGB-D图像实现高质量近实时的多物体场景形状补全，通过遮挡掩码策略和3D旋转位置编码显著提升效率和泛化能力。

OctMAE架构（核心创新）： - Octree U-Net负责高效的局部特征编码/解码（LoD-9到LoD-5） - 3D MAE在LoD-5的隐空间做全局推理（token数降至数百~数千量级） - 结合了CNN的局部感知和Transformer的全局理解

遮挡掩码策略： - 不在所有空体素放置mask token（密集掩码→内存爆炸），仅在被遮挡的体素处放置 - 通过深度测试确定哪些体素位于物体背后 - 使掩码token数量大幅减少，支持使用full attention而非deformable attention

3D RoPE（旋转位置编码）： - 将三维坐标分别编码为旋转矩阵R(p^x), R(p^y), R(p^z) - 组成块对角矩阵应用于每个attention层的query/key - 比可学习相对位置编码高效（后者需N'×N'次计算），比绝对位置编码更泛化

大规模数据集构建： - 从Objaverse筛选12K+ 3D模型（601类），补充GSO数据 - 使用BlenderProc物理摆放+真实光照渲染1M张图像 - 涵盖手持尺寸物体（4~40cm），填补了零样本多物体场景补全数据集空白

\[\mathcal{L} = \mathcal{L}_{nrm} + \mathcal{L}_{SDF} + \sum_{h \in \{5,6,7,8,9\}} \mathcal{L}_{occ}^h\]

法线L2损失 + SDF L2损失 + 每个LoD的占据二值交叉熵。逐层剪枝空体素避免不必要计算。

方法	3D表示	Synthetic CD↓	YCB-V CD↓	HB CD↓	HOPE CD↓
VoxFormer	Dense	44.54	30.32	34.84	47.75
ConvONet	Dense	23.68	32.87	26.71	20.95
MCC	Implicit	43.37	35.85	19.59	17.53
AICNet	Dense	15.64	12.26	11.87	11.40
Minkowski	Sparse	11.47	8.04	8.81	8.56
OCNN	Sparse	9.05	7.10	7.02	8.05
OctMAE	Sparse	6.48	6.40	6.14	6.97

位置编码对比（合成数据集）：

3D注意力机制对比（HOPE数据集）：