Self-supervised Learning of Hybrid Part-aware 3D Representations of 2D Gaussians and Superquadrics¶
会议: ICCV 2025
arXiv: 2408.10789
代码: zhirui-gao/PartGS
领域: 3d_vision
关键词: 部件感知重建, 2D高斯溅射, 超二次曲面, 自监督, 形状分解
一句话总结¶
提出 PartGS,一个自监督的部件感知3D重建框架,将2D Gaussian Splatting与超二次曲面混合耦合,通过参数共享和多种正则化实现同时高质量几何分解和纹理重建,在DTU、ShapeNet和真实场景上在重建精度上比SOTA提升75.9%,PSNR提升16.13dB。
研究背景与动机¶
部件感知3D重建 旨在将物体/场景分解为有意义的结构化部件,而非低层表示(点云、网格等)。这与认知科学中人类将3D环境理解为有意义部件组合的观点一致。结构化几何分解增强了场景可解释性,并有助于物理仿真、编辑、内容生成等下游任务。
现有方法存在三个核心问题:
依赖3D监督:EMS、MonteBoxFinder等方法需要3D点云或体素输入,无法直接从多视图图像工作,限制了实际应用。
几何与外观的矛盾:PartNeRF用多个NeRF建模部件,但隐式场的复杂组合导致次优渲染质量和低效分解。DBW使用超二次曲面+UV纹理图进行分解,虽然分解合理,但几何和外观重建精度不足(无法捕获细节)。
速度瓶颈:PartNeRF约8小时/场景,GaussianBlock(并行工作)也需数小时。
核心洞察:超二次曲面擅长表示广泛的基本形状原语(球、立方体、圆柱等的连续参数化族),适合部件级分解;而2D Gaussian Splatting擅长高保真纹理和几何细节重建。将两者耦合——让Gaussian分布在超二次曲面表面、共享姿态参数——可以同时获得合理的部件分解和高质量渲染。
方法详解¶
整体框架¶
PartGS 采用 两阶段优化策略:
- Block-level 阶段:使用混合超二次曲面+Gaussian表示,将场景分解为基本形状块
- Point-level 阶段:解耦Gaussian与超二次曲面的约束,允许Gaussian自由偏移以精化几何
混合表示的参数化¶
场景 \(\mathcal{S}\) 被分解为 \(M\) 个混合块:\(\mathcal{S} = \mathcal{B}_1 \cup \ldots \cup \mathcal{B}_M\)
每个混合块 \(\mathcal{B}_i\) 由超二次曲面和其表面上的2D Gaussian组成,参数包括:
形状与尺度参数:超二次曲面由两个形状参数 \(\epsilon_1, \epsilon_2\) 和三个尺度参数 \(s_1, s_2, s_3\) 控制,顶点坐标为: $\(\mathbf{v} = [s_1 \cos^{\epsilon_1}(\theta) \cos^{\epsilon_2}(\varphi); \; s_2 \sin^{\epsilon_1}(\theta); \; s_3 \cos^{\epsilon_1}(\theta) \sin^{\epsilon_2}(\varphi)]\)$
姿态参数:旋转 \(\mathbf{R}_i\) 和平移 \(\mathbf{t}_i\),变换为:\(\hat{\mathbf{v}}_i^j = \mathbf{R}_i \mathbf{v}_i^j + \mathbf{t}_i\)
关键耦合设计:2D Gaussian的中心均匀采样在超二次曲面的三角面上。其旋转矩阵 \(\mathrm{R}_v = [r_1, r_2, r_3]\) 和缩放 \(\mathrm{S}_v\) 由面顶点位置确定(跟随 GaMeS),无需独立学习几何参数。\(r_1\) 对齐面法线,\(r_2\) 从质心指向 \(v_1\),\(r_3\) 通过Gram-Schmidt正交化得到。
不透明度参数:每个块有可学习的不透明度 \(\tau_i\),训练中低于阈值的块被移除,实现自适应部件数量。
纹理参数:2D Gaussian的球谐系数控制视点相关的纹理。
Block-level 分解:优化与正则化¶
仅用渲染损失会导致块定位不稳定,因此引入四个正则化项:
渲染损失(标准3DGS损失): $\(\mathcal{L}_{\text{ren}} = (1 - \lambda) L_1 + \lambda L_{\text{D-SSIM}}\)$
覆盖损失:确保混合块覆盖物体区域,且不延伸到边界外。基于超二次曲面的内外函数 \(D_i(x) = \Psi_i(x) - 1\) 定义光线与块的交互关系: $\(\mathcal{L}_{\text{cov}} = \sum_{r \in \mathcal{R}} l_r L_{\text{cross}}(r) + (1 - l_r) L_{\text{non-cross}}(r)\)$
重叠损失:通过蒙特卡洛方法惩罚同时处于多个块内部的采样点: $\(\mathcal{L}_{\text{over}} = \frac{1}{N} \sum_{x \in \Omega} \text{ReLU}(\sum_{i \in \mathcal{M}} \mathcal{O}_i^x - k)\)$ 其中软占据函数 \(\mathcal{O}_i^x = \tau_i \cdot \text{sigmoid}(-D_i(x) / \gamma)\)。
简约损失:惩罚块不透明度以促进使用最少数量的块:\(\mathcal{L}_{\text{par}} = \frac{1}{M} \sum_{i} \sqrt{\tau_i}\)
不透明熵损失:将块不透明度推向二值(0或1): $\(\mathcal{L}_{\text{opa}} = \frac{1}{|\mathcal{R}|} \sum_{r} L_{ce}(\max_{i} \tau_i(x^r), l_r)\)$
总损失为加权求和:\(\mathcal{L} = \mathcal{L}_{\text{ren}} + \lambda_{\text{cov}} \mathcal{L}_{\text{cov}} + \lambda_{\text{over}} \mathcal{L}_{\text{over}} + \lambda_{\text{par}} \mathcal{L}_{\text{par}} + \lambda_{\text{opa}} \mathcal{L}_{\text{opa}}\)
自适应块数量:不透明度低于阈值 \(t\) 的块被移除;使用DBSCAN聚类未被覆盖的初始点云,为每个聚类引入新块。
Point-level 精化¶
解耦Gaussian与超二次曲面的约束,允许独立优化。添加进入约束防止一个块的Gaussian穿越到相邻块内部:
实验¶
主实验一:DTU数据集定量对比¶
| 方法 | 输入 | 可渲染 | 部件感知 | 平均CD↓ | PSNR↑ | 时间↓ |
|---|---|---|---|---|---|---|
| EMS | 3D GT | ✗ | ✓ | 4.65 | - | - |
| MBF | 3D GT | ✗ | ✓ | 2.50 | - | - |
| PartNeRF | Image | ✓ | ✓ | 8.54 | 17.97 | ~8h |
| DBW | Image | ✓ | ✓ | 4.76 | 16.44 | ~2h |
| PartGS (Block) | Image | ✓ | ✓ | 4.19 | 19.84 | ~30m |
| PartGS (Point) | Image | ✓ | ✓ | 0.98 | 35.04 | ~40m |
| 2DGS (非部件) | Image | ✓ | ✗ | 0.81 | 34.07 | ~10m |
PartGS Point-level 的CD=0.98逼近非部件方法2DGS(0.81),同时保持部件分解能力。相比DBW(SOTA部件方法),CD改进79%、PSNR提升18.6dB、速度快3倍。
主实验二:ShapeNet数据集对比¶
| 方法 | 输入 | Airplane CD | Table CD | Chair CD | Gun CD | 平均CD |
|---|---|---|---|---|---|---|
| EMS | 3D GT | 3.40 | 6.92 | 19.0 | 2.02 | - |
| PartGS (Block) | Image | - | - | - | - | 4.19 |
| PartGS (Point) | Image | - | - | - | - | 0.98 |
在ShapeNet上同样展现了显著的重建精度优势,且能处理不同类别的多样化形状。
消融实验¶
| 策略 | 影响 |
|---|---|
| 无覆盖损失 | 块不能完整覆盖物体,出现未覆盖区域 |
| 无重叠损失 | 块之间严重重叠,分解质量下降 |
| 无简约损失 | 使用过多冗余的块 |
| 无DBSCAN添加 | 复杂物体的新出现区域无法被覆盖 |
| 无进入约束(点级) | Gaussian穿越块边界,破坏分解连续性 |
亮点与洞察¶
- 混合耦合表示的优雅设计:Gaussian共享超二次曲面的姿态,使表示更紧凑高效(无需独立学习Gaussian几何)
- 自监督实现部件分解:无需3D标注或分割监督,仅通过多视图渲染损失+正则化约束自动发现物体部件
- 两阶段的递进策略:Block级保证分解质量、Point级保证重建精度,两者解耦又互补
- 在保持部件感知能力的同时,重建质量逼近甚至超越非部件方法(PSNR 35.04 vs 2DGS 34.07)
局限性¶
- 超二次曲面的表达能力有限:对高度不规则的形状(如树木、动物毛发),基本形状原语的假设可能不成立
- 初始块数量 \(M\) 是超参数,虽然有自适应机制但仍需经验设定
- 主要在物体级别验证,更大规模的室内/室外场景分解尚未探索
- 仅与2024年及之前的部件感知方法对比,缺少与最新并行工作的全面比较
相关工作¶
- 形状分解/抽象:Blocks World、EMS(超二次曲面概率恢复)、MonteBoxFinder(立方体+MCTS)
- 图像驱动的结构化3D:PartNeRF(椭球+NeRF)、DBW(超二次曲面+UV纹理)、ISCO
- 网格+Gaussian混合:SuGaR、GaMeS(Gaussian绑定到三角面)
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 5 |
| 实验充分性 | 4 |
| 写作质量 | 4 |
| 实用价值 | 4 |
| 总评 | 4.2 |
相关论文¶
- [ICCV 2025] SHeaP: Self-Supervised Head Geometry Predictor Learned via 2D Gaussians
- [NeurIPS 2025] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
- [CVPR 2025] Sonata: Self-Supervised Learning of Reliable Point Representations
- [ICCV 2025] S3E: Self-Supervised State Estimation for Radar-Inertial System
- [ICCV 2025] No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views