Self-supervised Learning of Hybrid Part-aware 3D Representations of 2D Gaussians and Superquadrics¶

会议: ICCV 2025
arXiv: 2408.10789
代码: zhirui-gao/PartGS
领域: 3d_vision
关键词: 部件感知重建, 2D高斯溅射, 超二次曲面, 自监督, 形状分解

一句话总结¶

提出 PartGS，一个自监督的部件感知3D重建框架，将2D Gaussian Splatting与超二次曲面混合耦合，通过参数共享和多种正则化实现同时高质量几何分解和纹理重建，在DTU、ShapeNet和真实场景上在重建精度上比SOTA提升75.9%，PSNR提升16.13dB。

研究背景与动机¶

部件感知3D重建 旨在将物体/场景分解为有意义的结构化部件，而非低层表示（点云、网格等）。这与认知科学中人类将3D环境理解为有意义部件组合的观点一致。结构化几何分解增强了场景可解释性，并有助于物理仿真、编辑、内容生成等下游任务。

现有方法存在三个核心问题：

依赖3D监督：EMS、MonteBoxFinder等方法需要3D点云或体素输入，无法直接从多视图图像工作，限制了实际应用。

几何与外观的矛盾：PartNeRF用多个NeRF建模部件，但隐式场的复杂组合导致次优渲染质量和低效分解。DBW使用超二次曲面+UV纹理图进行分解，虽然分解合理，但几何和外观重建精度不足（无法捕获细节）。

速度瓶颈：PartNeRF约8小时/场景，GaussianBlock（并行工作）也需数小时。

核心洞察：超二次曲面擅长表示广泛的基本形状原语（球、立方体、圆柱等的连续参数化族），适合部件级分解；而2D Gaussian Splatting擅长高保真纹理和几何细节重建。将两者耦合——让Gaussian分布在超二次曲面表面、共享姿态参数——可以同时获得合理的部件分解和高质量渲染。

方法详解¶

整体框架¶

PartGS 采用 两阶段优化策略：

Block-level 阶段：使用混合超二次曲面+Gaussian表示，将场景分解为基本形状块
Point-level 阶段：解耦Gaussian与超二次曲面的约束，允许Gaussian自由偏移以精化几何

混合表示的参数化¶

场景 $\mathcal{S}$ 被分解为 $M$ 个混合块：$\mathcal{S} = \mathcal{B}_1 \cup \ldots \cup \mathcal{B}_M$

每个混合块 $\mathcal{B}_i$ 由超二次曲面和其表面上的2D Gaussian组成，参数包括：

形状与尺度参数：超二次曲面由两个形状参数 $\epsilon_1, \epsilon_2$ 和三个尺度参数 $s_1, s_2, s_3$ 控制，顶点坐标为： $$\mathbf{v} = [s_1 \cos^{\epsilon_1}(\theta) \cos^{\epsilon_2}(\varphi); \; s_2 \sin^{\epsilon_1}(\theta); \; s_3 \cos^{\epsilon_1}(\theta) \sin^{\epsilon_2}(\varphi)]$$

姿态参数：旋转 $\mathbf{R}_i$ 和平移 $\mathbf{t}_i$，变换为：$\hat{\mathbf{v}}_i^j = \mathbf{R}_i \mathbf{v}_i^j + \mathbf{t}_i$

关键耦合设计：2D Gaussian的中心均匀采样在超二次曲面的三角面上。其旋转矩阵 $\mathrm{R}_v = [r_1, r_2, r_3]$ 和缩放 $\mathrm{S}_v$ 由面顶点位置确定（跟随 GaMeS），无需独立学习几何参数。$r_1$ 对齐面法线，$r_2$ 从质心指向 $v_1$，$r_3$ 通过Gram-Schmidt正交化得到。

不透明度参数：每个块有可学习的不透明度 $\tau_i$，训练中低于阈值的块被移除，实现自适应部件数量。

纹理参数：2D Gaussian的球谐系数控制视点相关的纹理。

Block-level 分解：优化与正则化¶

仅用渲染损失会导致块定位不稳定，因此引入四个正则化项：

渲染损失（标准3DGS损失）： $$\mathcal{L}_{\text{ren}} = (1 - \lambda) L_1 + \lambda L_{\text{D-SSIM}}$$

覆盖损失：确保混合块覆盖物体区域，且不延伸到边界外。基于超二次曲面的内外函数 $D_i(x) = \Psi_i(x) - 1$ 定义光线与块的交互关系： $$\mathcal{L}_{\text{cov}} = \sum_{r \in \mathcal{R}} l_r L_{\text{cross}}(r) + (1 - l_r) L_{\text{non-cross}}(r)$$

重叠损失：通过蒙特卡洛方法惩罚同时处于多个块内部的采样点： $$\mathcal{L}_{\text{over}} = \frac{1}{N} \sum_{x \in \Omega} \text{ReLU}(\sum_{i \in \mathcal{M}} \mathcal{O}_i^x - k)$$ 其中软占据函数 $\mathcal{O}_i^x = \tau_i \cdot \text{sigmoid}(-D_i(x) / \gamma)$。

简约损失：惩罚块不透明度以促进使用最少数量的块：$\mathcal{L}_{\text{par}} = \frac{1}{M} \sum_{i} \sqrt{\tau_i}$

不透明熵损失：将块不透明度推向二值（0或1）： $$\mathcal{L}_{\text{opa}} = \frac{1}{|\mathcal{R}|} \sum_{r} L_{ce}(\max_{i} \tau_i(x^r), l_r)$$

总损失为加权求和：$\mathcal{L} = \mathcal{L}_{\text{ren}} + \lambda_{\text{cov}} \mathcal{L}_{\text{cov}} + \lambda_{\text{over}} \mathcal{L}_{\text{over}} + \lambda_{\text{par}} \mathcal{L}_{\text{par}} + \lambda_{\text{opa}} \mathcal{L}_{\text{opa}}$

自适应块数量：不透明度低于阈值 $t$ 的块被移除；使用DBSCAN聚类未被覆盖的初始点云，为每个聚类引入新块。

Point-level 精化¶

解耦Gaussian与超二次曲面的约束，允许独立优化。添加进入约束防止一个块的Gaussian穿越到相邻块内部：

\[\mathcal{L}_{\text{enter}} = \frac{1}{N} \sum_{x \in \Omega} \sum_{m \in \mathcal{M} \setminus \{\delta\}} \text{ReLU}(-D_m(x))\]

实验¶

主实验一：DTU数据集定量对比¶

方法	输入	可渲染	部件感知	平均CD↓	PSNR↑	时间↓
EMS	3D GT	✗	✓	4.65	-	-
MBF	3D GT	✗	✓	2.50	-	-
PartNeRF	Image	✓	✓	8.54	17.97	~8h
DBW	Image	✓	✓	4.76	16.44	~2h
PartGS (Block)	Image	✓	✓	4.19	19.84	~30m
PartGS (Point)	Image	✓	✓	0.98	35.04	~40m
2DGS (非部件)	Image	✓	✗	0.81	34.07	~10m

PartGS Point-level 的CD=0.98逼近非部件方法2DGS（0.81），同时保持部件分解能力。相比DBW（SOTA部件方法），CD改进79%、PSNR提升18.6dB、速度快3倍。

主实验二：ShapeNet数据集对比¶

方法	输入	Airplane CD	Table CD	Chair CD	Gun CD	平均CD
EMS	3D GT	3.40	6.92	19.0	2.02	-
PartGS (Block)	Image	-	-	-	-	4.19
PartGS (Point)	Image	-	-	-	-	0.98

在ShapeNet上同样展现了显著的重建精度优势，且能处理不同类别的多样化形状。

消融实验¶

策略	影响
无覆盖损失	块不能完整覆盖物体，出现未覆盖区域
无重叠损失	块之间严重重叠，分解质量下降
无简约损失	使用过多冗余的块
无DBSCAN添加	复杂物体的新出现区域无法被覆盖
无进入约束（点级）	Gaussian穿越块边界，破坏分解连续性

亮点与洞察¶

混合耦合表示的优雅设计：Gaussian共享超二次曲面的姿态，使表示更紧凑高效（无需独立学习Gaussian几何）
自监督实现部件分解：无需3D标注或分割监督，仅通过多视图渲染损失+正则化约束自动发现物体部件
两阶段的递进策略：Block级保证分解质量、Point级保证重建精度，两者解耦又互补
在保持部件感知能力的同时，重建质量逼近甚至超越非部件方法（PSNR 35.04 vs 2DGS 34.07）

局限性¶

超二次曲面的表达能力有限：对高度不规则的形状（如树木、动物毛发），基本形状原语的假设可能不成立
初始块数量 $M$ 是超参数，虽然有自适应机制但仍需经验设定
主要在物体级别验证，更大规模的室内/室外场景分解尚未探索
仅与2024年及之前的部件感知方法对比，缺少与最新并行工作的全面比较

评分¶

维度	分数 (1-5)
创新性	4
技术深度	5
实验充分性	4
写作质量	4
实用价值	4
总评	4.2