Towards 3D Object-Centric Feature Learning for Semantic Scene Completion¶

会议: AAAI 2026
arXiv: 2511.13031
代码: 无
领域: 自动驾驶 / 3D语义场景补全
关键词: 语义场景补全, 物体中心学习, MobileSAM, 线性注意力, BEV表征

一句话总结¶

提出Ocean框架，利用MobileSAM提取的实例掩码引导3D物体中心特征学习，通过语义组注意力（SGA3D）和全局相似性引导注意力（GSGA）在3D空间实现实例级特征聚合，并用实例感知局部扩散（ILD）模块精炼场景表征，在SemanticKITTI和SSCBench-KITTI360上达到SOTA。

研究背景与动机¶

问题背景¶

视觉3D语义场景补全（SSC）旨在将3D空间划分为体素并预测每个体素的语义标签，生成密集的3D环境表征，服务于自动驾驶的下游规划任务。相比LiDAR方案，单目视觉方案成本更低、部署更方便。

现有方法的范式与问题¶

大多数现有方法遵循自我中心范式（ego-centric paradigm），将2D特征投影到3D空间后在整个场景上聚合和扩散特征。这种全局范式带来两个核心问题：

语义歧义：不同物体的特征被融合，导致语义混淆。例如路边多辆车之间的空白空间被错误赋予与车辆相似的特征

几何歧义：空体素和占据体素的特征混合，导致几何预测不准确。表现为车辆后方出现错误的"拖尾"预测

物体中心学习的挑战¶

已有物体中心方法（如Symphonies使用实例查询、GaussianFormer使用高斯点）缺乏显式的物体级对应关系，限制了性能提升。利用MobileSAM等视觉基础模型面临两个挑战：

掩码先验限制在2D图像平面，不支持全面的3D特征交互
先验掩码可能存在错误和遗漏，导致性能下降

方法详解¶

整体框架¶

Ocean的流程： 1. 图像编码器提取多尺度视觉特征 2. LSS方法将2D特征投影到3D体素空间 3. 基于深度预测选择3D体素查询提案 4. SGDA块：利用MobileSAM掩码在物体级别聚合特征 5. ILD模块：利用实例特征精炼场景BEV表征 6. 3D预测头输出语义占据预测

关键设计¶

1. SemGroup Dual Attention (SGDA) 块¶

SGDA包含两个互补模块：

3D Semantic Group Attention (SGA3D)：

功能：利用MobileSAM的实例掩码，在3D空间内对同一实例的体素查询和图像像素进行分组特征交互。

核心思路： - 将3D查询提案投影到图像平面，通过最近邻采样分配实例ID - 同一实例ID的查询和像素被分组到同一簇 - 在簇内使用散射线性注意力（scattered linear attention）进行高效特征聚合

\[\tilde{Q} = \text{Concat}\left[\frac{\varphi(Q^j) A^j \sum_{i=1}^{m^j} \varphi(K_i^j)^T V_i^j}{\varphi(Q^j) \sum_{i=1}^{m^j} \varphi(K_i^j)^T}\right]_{j=1}^{M}\]

其中 \(A^j\) 是深度相似度矩阵，\(M\) 是实例数量。

3D深度扩展：利用深度预测的概率分布和查询的投影深度之间的相似性，构建深度相似度矩阵 \(A^j\)，将2D物体中心学习扩展到3D空间。具体做法巧妙利用了深度bin作为桥梁：像素深度是softmax概率分布，查询深度对应特定bin，从而计算 \(m \times n\) 的深度相似度矩阵。

设计动机：线性注意力使计算复杂度从 \(O(n^2)\) 降到 \(O(n)\)，适合处理大量实例和像素。多尺度特征聚合结合了高层语义信息和低层纹理细节。

Global Similarity-Guided Attention (GSGA)：

功能：通过可变形注意力机制，利用MobileSAM的中间特征引导全局特征聚合，弥补SGA3D仅关注局部实例交互的不足。

核心思路：计算每个查询提案与MobileSAM中间特征在可变形偏移位置的相似度，作为实例感知权重过滤和强调同一物体的特征：

\[\hat{Q} = \sum_k (G_k W \mathcal{F}(p_q + \Delta p_k)) \odot A_k\]

设计动机：处理MobileSAM掩码的错误和遗漏。可变形注意力允许模型灵活关注超出刚性分割边界的区域，减少掩码不完美的影响。

2. Instance-aware Local Diffusion (ILD) 模块¶

功能：利用实例级特征增强BEV表征，弥补投影限制导致的信息不足。

动态实例解码器（DID）： - 基于实例掩码对多尺度分组特征求和，得到实例级聚合表征 - 使用轻量反卷积块从实例特征生成 \(x \times y \times (C_2+1)\) 维的BEV特征 - 使用Gumbel-Softmax动态选择哪些实例参与最终的BEV重建

\[\hat{w}_l = \frac{\mathcal{Z}_l w_l}{\sum_{l=1}^L \mathcal{Z}_l w_l + \epsilon}, \quad \hat{\mathcal{P}} = \sum_{l=1}^L \mathcal{P}_l \odot \hat{w}_l\]

局部注意力精炼：使用窗口注意力（Swin Transformer风格），以聚合特征为Query、实例感知特征为Key/Value，在局部范围内精炼BEV特征。

损失函数 / 训练策略¶

总损失函数：

\[\mathcal{L} = \lambda_d \mathcal{L}_d + \lambda_r \mathcal{L}_{recon} + \mathcal{L}_{ce} + \mathcal{L}_{scal}^{geo} + \mathcal{L}_{scal}^{sem}\]

\(\mathcal{L}_{ce}\)：交叉熵损失，监督体素语义预测
\(\mathcal{L}_{scal}^{sem}\)、\(\mathcal{L}_{scal}^{geo}\)：尺度感知的语义和几何损失
\(\mathcal{L}_d\)：深度分布监督（\(\lambda_d=0.001\)）
\(\mathcal{L}_{recon}\)：BEV重建损失，约束生成的BEV特征质量（\(\lambda_r=0.1\)）

训练配置：4×GeForce 3090，AdamW优化器，初始学习率3e-4，权重衰减0.01，EfficientNetB7作为2D骨干。

实验关键数据¶

主实验¶

SemanticKITTI验证集：

方法	IoU↑	mIoU↑	说明
MonoScene	34.16	11.08	首个单目SSC
VoxFormer	42.95	12.20	深度引导稀疏到密集
OccFormer	34.53	12.32	局部-全局分解
Symphonies	42.19	15.04	实例查询物体中心
LOMA	43.01	15.10	视觉语言融合
CGFormer	44.41	16.63	上下文几何感知
HTCL	44.23	17.09	利用时序信息
Ocean (Ours)	45.62	17.40	物体中心 + MobileSAM

SSCBench-KITTI360测试集：

方法	IoU↑	mIoU↑
CGFormer	48.07	20.05
SGFormer	46.35	18.30
Ocean (Ours)	48.19	20.28

消融实验¶

各模块贡献（SemanticKITTI验证集）：

配置	SGA3D	GSGA	LA	DID	IoU↑	mIoU↑
M0 (Baseline)					44.62	15.80
M1	✓				45.77	16.49
M2	✓	✓			46.01	16.80
M3	✓	✓	✓		45.39	17.10
M4 (Full)	✓	✓	✓	✓	46.40	17.39

SGA3D模块消融：

方法	IoU↑	mIoU↑	参数量	FLOPs
SGA3D (Ours)	46.40	17.39	0.280M	1.333G
SGA3D w/o 多尺度	46.44	16.64	0.280M	1.298G
SGA3D w/o 3D扩展	45.84	17.30	0.280M	1.333G
DFA2D	46.14	16.39	0.202M	2.231G
DFA3D	46.15	16.97	0.330M	2.807G

动态实例解码器融合策略：

策略	IoU↑	mIoU↑
直接求和	45.79	16.45
Softmax加权	45.89	16.88
Sigmoid加权	46.30	16.92
动态选择 (Ours)	46.40	17.39

关键发现¶

SGA3D引入实例先验后，IoU提升1.15，mIoU提升0.69，验证物体中心特征学习的有效性
GSGA补充了SGA3D的局部局限，进一步提升0.31的mIoU
SGA3D相比DFA3D，mIoU高0.42且参数更少、FLOPs低一半
动态实例选择比简单求和在mIoU上提高0.94
Ocean在识别道路、人行道、交通标志等具有一致表面信息的物体时表现尤为突出

亮点与洞察¶

巧妙利用深度bin作为桥梁：将像素深度概率分布与查询投影深度通过深度bin关联，优雅地将2D掩码先验扩展到3D空间
双注意力互补设计：SGA3D负责局部实例内精细交互，GSGA补偿掩码错误和遗漏，两者互补
Gumbel-Softmax动态选择：实例重要性动态学习，避免了手动设计权重或固定融合策略
散射线性注意力：将计算复杂度降到线性，使大规模实例处理可行
实验设计充分：对每个模块都有详细消融，且与DFA3D等替代方案有公平对比

局限与展望¶

远距离和严重遮挡场景仍有困难：视觉信息不足时，模型难以提取判别性特征（论文Figure 7展示了失败案例）
MobileSAM运行开销：虽然轻量化，但额外的分割模型仍增加了推理时间
仅单目输入：未利用多视角或时序信息（HTCL使用时序还能取得17.09 mIoU）
物体中心方案对背景类别的提升有限：如terrain等背景类的提升不如前景物体明显
可探索将MobileSAM替换为更轻量的分割头，减少推理开销

评分¶

新颖性: ⭐⭐⭐⭐ — 物体中心范式结合MobileSAM先验是有意义的创新
实验充分度: ⭐⭐⭐⭐⭐ — 模块消融极其详细，替代方案对比公平
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示丰富
价值: ⭐⭐⭐⭐ — 为3D SSC引入了新范式，对后续工作有启发