Mitigating Ambiguities in 3D Classification with Gaussian Splatting¶
会议: CVPR 2025
arXiv: 2503.08352
代码: https://ruiqi-nju.github.io/MACGS
领域: 3D视觉 / 点云分类
关键词: 3D高斯泼溅, 点云分类, 歧义消除, 透明度表征, 局部几何
一句话总结¶
本文首次探索用 3D Gaussian Splatting (GS) 点云替代传统点云作为 3D 分类的输入表示,利用 GS 中的 scale/rotation 系数区分线状和平坦表面、利用 opacity 区分透明/反射物体,构建了首个真实世界 GS 点云数据集,在多种分类方法上均验证了 GS 点云消除歧义的有效性。
研究背景与动机¶
- 领域现状:3D 点云分类是 3D 视觉的基础任务,已有的方法(PointNet、PointNet++、PointNeXt、PointMLP、DeLA、PTv3)在网络架构设计上取得了很大进展,能从不规则无序的点云中提取特征。
- 现有痛点:传统点云表示存在两类固有歧义:(1) 局部形状歧义——由于采样率不足,线状表面(如篮子网格)和平坦表面(如碗)在点云中可能看起来非常相似;(2) 外观歧义——传统点云假设每个点的存在是硬约束(0或1),无法表达透明或反射物体的材质差异。
- 核心矛盾:这些歧义是数据表示层面的固有问题,无论后续分类模型多强都无法根本解决——信息在输入表示时就已经丢失了。
- 本文目标 能否通过更丰富的输入表示来消除点云分类中的歧义?
- 切入角度:3D Gaussian Splatting 表示每个点为一个 3D 高斯椭球,天然携带 scale(标准差)、rotation(四元数)和 opacity,这些信息恰好能补充传统点云缺失的局部几何和材质属性。
- 核心 idea:将3D分类的输入从纯位置点云替换为包含 position+scale+rotation+opacity 的 GS 点云,只修改网络第一层通道数即可消除分类歧义。
方法详解¶
整体框架¶
方法流程非常直观:(1) 从多视角图像用标准 3DGS 重建得到 GS 点云;(2) 将传统分类网络的输入从 3 通道(xyz 坐标)扩展为 11 通道(position 3 + opacity 1 + scale 3 + quaternion 4),仅修改第一层网络的输入通道数;(3) 其余网络结构完全不变,用交叉熵损失训练分类。
关键设计¶
-
GS 点云的局部形状表征 (Scale + Rotation):
- 功能:区分线状表面和平坦表面。
- 核心思路:GS 点云中每个点是一个 3D 高斯椭球,其形状由标准差 \(\boldsymbol{s}=[s_x,s_y,s_z]\) 和旋转四元数 \(\boldsymbol{q}=[q_1,q_2,q_3,q_4]\) 决定。线状表面(如篮子的网格、音箱的穿孔面)由多个细长椭球表示,主轴沿孔洞边界分布;平坦表面(如金属盒子、易拉罐)由少数扁平椭球表示。通过这些系数,原本在点云中高度相似的结构变得显著不同。
- 设计动机:传统点云的离散采样无法捕获高频结构信息,而 GS 椭球天然提供了点到邻域空间的连续拓展,相当于隐式编码了局部几何。
-
GS 点云的透明度表征 (Opacity):
- 功能:区分不同材质属性(金属/玻璃/塑料等)的物体。
- 核心思路:传统点云中每个点的存在性 \(o=1\)(硬约束),GS 点云将其松弛为 \(o \in [0,1]\)。透明/反射物体(如玻璃容器、火车流线型表面)的 GS 点 opacity 较低,不透明物体(如塑料管道)opacity 接近 1。这为分类器提供了材质层面的区分信号。
- 设计动机:传统点云完全忽略材质信息,导致形状相似但材质不同的物体(如马克杯 vs 垃圾桶,火车 vs 管道)容易被混淆。
-
无侵入式网络适配:
- 功能:证明 GS 点云的优势来自表示本身而非网络设计。
- 核心思路:对所有基线方法(PointNet、PointNet++、PointNeXt、PointMLP、DeLA、PTv3),仅修改第一层输入通道数(3→4/10/11),其余网络结构和训练流程完全不变。
- 设计动机:通过最小化网络改动来隔离变量——如果精度提升了,那必然是因为 GS 点云提供了更好的表示,而非网络结构的功劳。
损失函数 / 训练策略¶
标准交叉熵损失。所有实验遵循各基线方法的官方训练指导,在单张 3090-24G GPU 上进行重训练。
实验关键数据¶
主实验¶
基于 MVImageNet 构建的 GS 数据集:20 类 × 200 物体 = 4,000 个 GS 点云。
| 方法 | OA (无GS) | OA (有GS) | 提升 | mAcc (无GS) | mAcc (有GS) | 提升 |
|---|---|---|---|---|---|---|
| PointNet | 73.56 | 80.87 | +7.31 | 73.77 | 81.46 | +7.69 |
| PointNet++ | 83.02 | 86.63 | +3.61 | 82.17 | 86.18 | +4.01 |
| PointNeXt | 87.77 | 89.78 | +2.01 | 86.54 | 88.70 | +2.16 |
| PointMLP | 87.91 | 90.21 | +2.30 | 86.75 | 89.48 | +2.73 |
| DeLA | 88.78 | 90.36 | +1.58 | 87.92 | 89.41 | +1.49 |
| PTv3 | 88.78 | 89.93 | +1.15 | 87.88 | 88.46 | +0.58 |
所有方法一致提升,PointNet 提升最大(+7.31%),强方法也有 1-2% 的提升。
消融实验¶
以 PointNet 为例,不同 GS 系数组合对各类别平均正确概率的影响:
| 输入组合 | 音箱 | 马克杯 | 碗 | 火车 | 纸盒 | 说明 |
|---|---|---|---|---|---|---|
| p (仅位置) | 0.31 | 0.46 | 0.48 | 0.69 | 0.44 | 基线 |
| p+o (位置+透明度) | 0.62 | 0.66 | 0.62 | 0.86 | 0.57 | 透明度帮助大 |
| p+s+q (位置+形状) | 0.60 | 0.75 | 0.61 | 0.91 | 0.58 | 形状帮助大 |
| p+o+s+q (全部) | 0.76 | 0.75 | 0.71 | 0.92 | 0.61 | 两者互补 |
关键发现¶
- opacity 对透明/反射物体帮助最大:火车(流线型反射表面)概率从 0.69 提升至 0.86,马克杯从 0.46 提升至 0.66,有效区分了形状相似但材质不同的物体。
- scale+rotation 对线状/平坦表面识别帮助最大:音箱从 0.31 提升至 0.60(通过区分穿孔面 vs 实心面),碗 vs 篮子的混淆也显著减少。
- 两种系数互补:全部系数组合在所有类别上几乎都优于仅用部分系数。
- t-SNE 可视化直观展示了 GS 系数如何使不同类别的全局特征聚类更清晰、类间分离度更大。
亮点与洞察¶
- "表示即性能"的深刻洞察:本文的核心贡献不是新网络、新损失或新训练策略,而是指出输入表示的质量是分类性能的上限。当表示无法区分某些物体时,再强的分类器也无能为力。这个思想可以泛化到很多任务——在追求更强模型之前,先检查表示是否提供了足够信息。
- GS 系数的语义解读非常清晰:scale/rotation → 表面拓扑结构,opacity → 材质透明性。这种从渲染表示中提取分类信号的思路很新颖,打通了新视图合成和3D理解的桥梁。
- 纯粹的输入替换实验设计(只改第一层通道数)使得结论的说服力极强。
局限与展望¶
- GS 点云依赖多视角 RGB 图像重建,无法像传统点云那样直接由 LiDAR 等设备获取,限制了应用场景。
- 数据集规模较小(4,000 物体 / 20 类),不如 ShapeNet (51k) 和 ModelNet (40k)。
- 未探索球谐(SH)系数的作用——SH 编码了视角依赖的颜色信息,可能对进一步消除歧义有帮助。
- GS 重建质量受源图像质量和视角分布影响,重建噪声可能引入新的干扰。
- 未在分割、检测等其他 3D 任务上验证 GS 点云的有效性。
相关工作与启发¶
- vs PointNet/PointNet++/PointMLP 等:这些方法专注于设计更好的网络架构从点云中提取特征,但都共享同一个输入空间(xyz坐标)。本文表明升级输入表示是一个正交的改进维度。
- vs 3DGS 渲染优化工作(Mip-Splatting, Scaffold-GS, HAC):这些工作关注 GS 的渲染质量和效率,本文首次探索 GS 表示对下游 3D 理解任务的赋能。
- 启发:GS 系数可能也对 3D 检测和分割有帮助,特别是在需要区分材质属性(如自动驾驶中的玻璃窗 vs 金属车体)的场景中。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将GS点云用于3D分类是一个新颖且直觉正确的idea
- 实验充分度: ⭐⭐⭐⭐ 6种分类方法+4种输入组合+t-SNE+逐类别分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 分析透彻,图示清晰
- 价值: ⭐⭐⭐⭐ 开创了GS点云用于3D理解的新方向,数据集有社区价值
相关论文¶
- [CVPR 2025] End-to-End Implicit Neural Representations for Classification
- [CVPR 2025] SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting
- [CVPR 2025] Steepest Descent Density Control for Compact 3D Gaussian Splatting
- [CVPR 2025] DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery
- [CVPR 2025] Hardware-Rasterized Ray-Based Gaussian Splatting