跳转至

Mitigating Ambiguities in 3D Classification with Gaussian Splatting

会议: CVPR 2025
arXiv: 2503.08352
代码: https://ruiqi-nju.github.io/MACGS
领域: 3D视觉 / 点云分类
关键词: 3D高斯泼溅, 点云分类, 歧义消除, 透明度表征, 局部几何

一句话总结

本文首次探索用 3D Gaussian Splatting (GS) 点云替代传统点云作为 3D 分类的输入表示,利用 GS 中的 scale/rotation 系数区分线状和平坦表面、利用 opacity 区分透明/反射物体,构建了首个真实世界 GS 点云数据集,在多种分类方法上均验证了 GS 点云消除歧义的有效性。

研究背景与动机

  1. 领域现状:3D 点云分类是 3D 视觉的基础任务,已有的方法(PointNet、PointNet++、PointNeXt、PointMLP、DeLA、PTv3)在网络架构设计上取得了很大进展,能从不规则无序的点云中提取特征。
  2. 现有痛点:传统点云表示存在两类固有歧义:(1) 局部形状歧义——由于采样率不足,线状表面(如篮子网格)和平坦表面(如碗)在点云中可能看起来非常相似;(2) 外观歧义——传统点云假设每个点的存在是硬约束(0或1),无法表达透明或反射物体的材质差异。
  3. 核心矛盾:这些歧义是数据表示层面的固有问题,无论后续分类模型多强都无法根本解决——信息在输入表示时就已经丢失了。
  4. 本文目标 能否通过更丰富的输入表示来消除点云分类中的歧义?
  5. 切入角度:3D Gaussian Splatting 表示每个点为一个 3D 高斯椭球,天然携带 scale(标准差)、rotation(四元数)和 opacity,这些信息恰好能补充传统点云缺失的局部几何和材质属性。
  6. 核心 idea:将3D分类的输入从纯位置点云替换为包含 position+scale+rotation+opacity 的 GS 点云,只修改网络第一层通道数即可消除分类歧义。

方法详解

整体框架

方法流程非常直观:(1) 从多视角图像用标准 3DGS 重建得到 GS 点云;(2) 将传统分类网络的输入从 3 通道(xyz 坐标)扩展为 11 通道(position 3 + opacity 1 + scale 3 + quaternion 4),仅修改第一层网络的输入通道数;(3) 其余网络结构完全不变,用交叉熵损失训练分类。

关键设计

  1. GS 点云的局部形状表征 (Scale + Rotation):

    • 功能:区分线状表面和平坦表面。
    • 核心思路:GS 点云中每个点是一个 3D 高斯椭球,其形状由标准差 \(\boldsymbol{s}=[s_x,s_y,s_z]\) 和旋转四元数 \(\boldsymbol{q}=[q_1,q_2,q_3,q_4]\) 决定。线状表面(如篮子的网格、音箱的穿孔面)由多个细长椭球表示,主轴沿孔洞边界分布;平坦表面(如金属盒子、易拉罐)由少数扁平椭球表示。通过这些系数,原本在点云中高度相似的结构变得显著不同。
    • 设计动机:传统点云的离散采样无法捕获高频结构信息,而 GS 椭球天然提供了点到邻域空间的连续拓展,相当于隐式编码了局部几何。
  2. GS 点云的透明度表征 (Opacity):

    • 功能:区分不同材质属性(金属/玻璃/塑料等)的物体。
    • 核心思路:传统点云中每个点的存在性 \(o=1\)(硬约束),GS 点云将其松弛为 \(o \in [0,1]\)。透明/反射物体(如玻璃容器、火车流线型表面)的 GS 点 opacity 较低,不透明物体(如塑料管道)opacity 接近 1。这为分类器提供了材质层面的区分信号。
    • 设计动机:传统点云完全忽略材质信息,导致形状相似但材质不同的物体(如马克杯 vs 垃圾桶,火车 vs 管道)容易被混淆。
  3. 无侵入式网络适配:

    • 功能:证明 GS 点云的优势来自表示本身而非网络设计。
    • 核心思路:对所有基线方法(PointNet、PointNet++、PointNeXt、PointMLP、DeLA、PTv3),仅修改第一层输入通道数(3→4/10/11),其余网络结构和训练流程完全不变。
    • 设计动机:通过最小化网络改动来隔离变量——如果精度提升了,那必然是因为 GS 点云提供了更好的表示,而非网络结构的功劳。

损失函数 / 训练策略

标准交叉熵损失。所有实验遵循各基线方法的官方训练指导,在单张 3090-24G GPU 上进行重训练。

实验关键数据

主实验

基于 MVImageNet 构建的 GS 数据集:20 类 × 200 物体 = 4,000 个 GS 点云。

方法 OA (无GS) OA (有GS) 提升 mAcc (无GS) mAcc (有GS) 提升
PointNet 73.56 80.87 +7.31 73.77 81.46 +7.69
PointNet++ 83.02 86.63 +3.61 82.17 86.18 +4.01
PointNeXt 87.77 89.78 +2.01 86.54 88.70 +2.16
PointMLP 87.91 90.21 +2.30 86.75 89.48 +2.73
DeLA 88.78 90.36 +1.58 87.92 89.41 +1.49
PTv3 88.78 89.93 +1.15 87.88 88.46 +0.58

所有方法一致提升,PointNet 提升最大(+7.31%),强方法也有 1-2% 的提升。

消融实验

以 PointNet 为例,不同 GS 系数组合对各类别平均正确概率的影响:

输入组合 音箱 马克杯 火车 纸盒 说明
p (仅位置) 0.31 0.46 0.48 0.69 0.44 基线
p+o (位置+透明度) 0.62 0.66 0.62 0.86 0.57 透明度帮助大
p+s+q (位置+形状) 0.60 0.75 0.61 0.91 0.58 形状帮助大
p+o+s+q (全部) 0.76 0.75 0.71 0.92 0.61 两者互补

关键发现

  • opacity 对透明/反射物体帮助最大:火车(流线型反射表面)概率从 0.69 提升至 0.86,马克杯从 0.46 提升至 0.66,有效区分了形状相似但材质不同的物体。
  • scale+rotation 对线状/平坦表面识别帮助最大:音箱从 0.31 提升至 0.60(通过区分穿孔面 vs 实心面),碗 vs 篮子的混淆也显著减少。
  • 两种系数互补:全部系数组合在所有类别上几乎都优于仅用部分系数。
  • t-SNE 可视化直观展示了 GS 系数如何使不同类别的全局特征聚类更清晰、类间分离度更大。

亮点与洞察

  • "表示即性能"的深刻洞察:本文的核心贡献不是新网络、新损失或新训练策略,而是指出输入表示的质量是分类性能的上限。当表示无法区分某些物体时,再强的分类器也无能为力。这个思想可以泛化到很多任务——在追求更强模型之前,先检查表示是否提供了足够信息。
  • GS 系数的语义解读非常清晰:scale/rotation → 表面拓扑结构,opacity → 材质透明性。这种从渲染表示中提取分类信号的思路很新颖,打通了新视图合成和3D理解的桥梁。
  • 纯粹的输入替换实验设计(只改第一层通道数)使得结论的说服力极强。

局限与展望

  • GS 点云依赖多视角 RGB 图像重建,无法像传统点云那样直接由 LiDAR 等设备获取,限制了应用场景。
  • 数据集规模较小(4,000 物体 / 20 类),不如 ShapeNet (51k) 和 ModelNet (40k)。
  • 未探索球谐(SH)系数的作用——SH 编码了视角依赖的颜色信息,可能对进一步消除歧义有帮助。
  • GS 重建质量受源图像质量和视角分布影响,重建噪声可能引入新的干扰。
  • 未在分割、检测等其他 3D 任务上验证 GS 点云的有效性。

相关工作与启发

  • vs PointNet/PointNet++/PointMLP 等:这些方法专注于设计更好的网络架构从点云中提取特征,但都共享同一个输入空间(xyz坐标)。本文表明升级输入表示是一个正交的改进维度。
  • vs 3DGS 渲染优化工作(Mip-Splatting, Scaffold-GS, HAC):这些工作关注 GS 的渲染质量和效率,本文首次探索 GS 表示对下游 3D 理解任务的赋能。
  • 启发:GS 系数可能也对 3D 检测和分割有帮助,特别是在需要区分材质属性(如自动驾驶中的玻璃窗 vs 金属车体)的场景中。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将GS点云用于3D分类是一个新颖且直觉正确的idea
  • 实验充分度: ⭐⭐⭐⭐ 6种分类方法+4种输入组合+t-SNE+逐类别分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ 分析透彻,图示清晰
  • 价值: ⭐⭐⭐⭐ 开创了GS点云用于3D理解的新方向,数据集有社区价值

相关论文