Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation¶

会议: CVPR 2025
arXiv: 2506.17891
代码: GitHub (有)
领域: 3D视觉 / 点云实例分割
关键词: 点云实例分割, 关系建模, 对比学习, 自适应超点聚合, Transformer

一句话总结¶

Relation3D 通过自适应超点聚合模块（ASAM）、对比学习引导的超点精炼（CLSR）和关系感知自注意力（RSA）三个组件增强了 Transformer-based 3D 实例分割中场景特征内部关系和 query 间关系的建模，在 ScanNetV2/ScanNet++/ScanNet200/S3DIS 上取得 SOTA。

研究背景与动机¶

领域现状：3D 点云实例分割旨在预测场景中每个物体实例的二值前景 mask 和语义标签。当前主流方法基于 Transformer 编码器-解码器框架，使用 instance query 通过 mask attention 与场景特征交互来生成实例 mask。代表性工作包括 SPFormer、Mask3D、QueryFormer 和 Maft。

现有痛点：现有 Transformer-based 方法主要通过 mask attention 建模场景特征与 query 特征之间的"外部关系"，但忽略了两类"内部关系"：(1) 场景特征（超点）之间的关系——同一实例内超点特征一致性不足、不同实例间区分度不够；(2) query 特征之间的关系——传统 self-attention 仅隐式计算相似度，缺乏空间和几何关系的显式建模。

核心矛盾：超点特征通过 pooling 聚合，但同一超点内点特征差异大（变异值 1.86），pooling 引入不合适特征并模糊有区分力的特征。同时，position embedding 通常不准确（SPFormer 的可学习位置编码缺乏具体空间含义，Mask3D/Maft 的位置编码与实际 mask 位置存在偏差），使得 self-attention 的空间关系建模不充分。

本文目标：(1) 如何有效建模场景特征之间的关系？(2) 如何更好地建模 query 之间的关系？

切入角度：从特征关系建模的角度切入——对场景特征，用自适应权重聚合替代 pooling 并用对比学习引导更新方向；对 query 特征，将显式的位置和几何关系作为 bias 嵌入 self-attention。

核心 idea：通过三个互补的关系建模模块（ASAM + CLSR + RSA），从场景特征和 query 特征两个层面增强 Transformer 解码器的关系建模能力。

方法详解¶

整体框架¶

输入点云（含位置、颜色、法线）经 Sparse UNet 提取点级特征 \(F \in \mathbb{R}^{N \times C}\)，通过 ASAM 聚合为超点级特征 \(F_{\text{super}} \in \mathbb{R}^{M \times C}\)。初始化 \(K\) 个 instance query \(Q \in \mathbb{R}^{K \times C}\)，送入 Transformer 解码器迭代更新。解码器中包含 RSA（增强 query 间关系）、mask attention（query-场景外部关系）、以及每隔 \(r\) 层执行的 CLSR（用对比学习引导超点特征更新）。

关键设计¶

自适应超点聚合模块 (ASAM):
- 功能：将点级特征自适应地聚合为超点级特征，强调有区分力的点、抑制不合适特征
- 核心思路：对点级特征 \(F\) 分别做 max-pooling 和 mean-pooling 得到 \(F_{\max}\) 和 \(F_{\text{mean}}\)，计算它们与原始点特征的差值，通过两个独立 MLP 预测每个点的权重 \(\mathcal{W}_{\max} = \text{MLP}_1(F_{\max} - F)\)，在每个超点内做 softmax 归一化后加权聚合。最终将两条路径的结果 concat 并通过 MLP 降维。整个过程可用 point-wise MLP 和 torch-scatter 并行化
- 设计动机：直接 pooling 在超点内点特征差异大时会引入噪声。通过与 pooling 统计量的差异自适应分配权重，能让有意义的、有区分力的点特征获得更高权重
对比学习引导的超点精炼模块 (CLSR):
- 功能：在解码器中利用 query 特征反向更新超点特征，并通过对比学习约束更新方向
- 核心思路：采用双路径结构，超点特征作为 \(\mathcal{Q}\)、query 特征作为 \(\mathcal{K}\) 和 \(\mathcal{V}\) 进行 cross-attention（与常规相反）。基于实例标注构建超点关系矩阵 \(R_{\text{super}}^{\text{GT}}\)，计算归一化超点特征的余弦相似度矩阵 \(\mathcal{S}\)，用 BCE loss 约束 \(L_{\text{cont}} = \text{BCE}(\frac{\mathcal{S}+1}{2}, R_{\text{super}}^{\text{GT}})\)。每隔 \(r=3\) 层执行一次精炼以控制计算开销
- 设计动机：mask attention 只建模 query 到场景的单向关系，双路径设计让信息双向流动加快收敛。对比损失显式引导同实例超点特征趋近、不同实例超点特征远离
关系感知自注意力 (RSA):
- 功能：在 self-attention 中融入 query 间显式的位置和几何关系
- 核心思路：首先计算每个 query 的 mask 对应的 3D bounding box（中心 \(x,y,z\) 和尺度 \(l,w,h\)），然后计算两两 query 间的位置相对关系（坐标差/尺度的 log）和几何相对关系（尺度比的 log），得到 6 维关系编码 \(\mathfrak{T} \in \mathbb{R}^{K \times K \times 6}\)。经 sin-cos 位置编码升维后通过线性变换得到 \(R_q \in \mathbb{R}^{K \times K \times \mathcal{H}}\)，作为 bias 加入注意力分数：\(\text{RSA}(Q) = \text{Softmax}(\frac{\mathcal{QK}^T}{\sqrt{C}} + R_q)\mathcal{V}\)
- 设计动机：传统 position embedding 与实际 mask 位置不匹配，导致空间关系建模不准确。直接用 mask 对应的 bbox 计算显式关系并嵌入注意力权重，将隐式关系建模与显式空间几何关系有效结合

损失函数 / 训练策略¶

总损失 \(L_{all} = \lambda_1 L_{ce} + \lambda_2 L_{bce} + \lambda_3 L_{dice} + \lambda_4 L_{center} + \lambda_5 L_{score} + \lambda_6 L_{cont}\)，前五项继承自 Maft，新增对比损失 \(L_{cont}\)（权重 \(\lambda_6=1\)）。在 ASAM 之后和每次 CLSR 之后都计算对比损失。单卡 RTX4090 训练 512 epochs，AdamW 优化器，最大学习率 0.0002，体素化尺寸 0.02m，\(K=400\)（ScanNet++/ScanNet200 用 500）。

实验关键数据¶

主实验¶

ScanNetV2 验证集 / 测试集：

方法	val mAP	val AP50	val AP25	test mAP	test AP50	test AP25
Maft	58.4	75.9	84.5	57.8	77.4	-
SPFormer	56.3	73.9	82.9	54.9	77.0	85.1
Relation3D	62.5	80.2	87.0	62.2	81.6	90.1

ScanNet++ 验证集/测试集：mAP 23.1→28.2 (+5.1), 测试集 20.9→24.2 (+3.3)

消融实验¶

对比损失 \(L_{cont}\) 的逐阶段效果（越低越好）：

阶段	Maft baseline	ASAM 后	CLSR 第二次	CLSR 第三次
\(L_{cont}\)	1.057	0.7255	0.5841	0.5739

关键发现¶

ASAM 比标准 pooling 增强了超点特征的区分度，CLSR 进一步逐阶段降低对比损失
RSA 融入显式空间几何关系后 self-attention 的关系建模更有效
相比基线 Maft，在 ScanNetV2 val 上 mAP +4.1、AP50 +4.3、AP25 +2.5
T-SNE 可视化清晰展示了同实例特征的聚集和不同实例特征的分离

亮点与洞察¶

精准定位了 Transformer-based 3D 实例分割的两类内部关系建模不足的问题
对比学习不是直接作用于 query 而是作用于超点特征，引导场景表征质量提升
RSA 受 2D 目标检测（Relation-DETR）启发，首次将关系先验引入 3D 实例分割
所有改进不增加推理计算量（训练时的 CLSR 开销可控，RSA 开销很小）

局限与展望¶

方法建立在固定的超点预分割之上，超点质量直接影响后续表现
对比学习需要 GT 实例标注构建关系矩阵，无法用于无监督场景
在类别数极多的 ScanNet200 上提升更大，说明关系建模对复杂场景益处更明显
未讨论在户外点云（如自动驾驶）上的适用性

评分¶

新颖性: 7/10 — 个别模块有新意但整体是已知技术的组合迁移
实验充分度: 9/10 — 四个数据集，消融详细，可视化丰富
写作质量: 8/10 — 问题定义清晰，动机推导有说服力
价值: 7/10 — 实验结果 solid，但方法的通用性有待验证