Towards 3D Object-Centric Feature Learning for Semantic Scene Completion¶
会议: AAAI 2026
arXiv: 2511.13031
代码: 无
领域: 自动驾驶 / 3D语义场景补全
关键词: 语义场景补全, 物体中心学习, MobileSAM, 线性注意力, BEV表征
一句话总结¶
提出Ocean框架,利用MobileSAM提取的实例掩码引导3D物体中心特征学习,通过语义组注意力(SGA3D)和全局相似性引导注意力(GSGA)在3D空间实现实例级特征聚合,并用实例感知局部扩散(ILD)模块精炼场景表征,在SemanticKITTI和SSCBench-KITTI360上达到SOTA。
研究背景与动机¶
问题背景¶
视觉3D语义场景补全(SSC)旨在将3D空间划分为体素并预测每个体素的语义标签,生成密集的3D环境表征,服务于自动驾驶的下游规划任务。相比LiDAR方案,单目视觉方案成本更低、部署更方便。
现有方法的范式与问题¶
大多数现有方法遵循自我中心范式(ego-centric paradigm),将2D特征投影到3D空间后在整个场景上聚合和扩散特征。这种全局范式带来两个核心问题:
语义歧义:不同物体的特征被融合,导致语义混淆。例如路边多辆车之间的空白空间被错误赋予与车辆相似的特征
几何歧义:空体素和占据体素的特征混合,导致几何预测不准确。表现为车辆后方出现错误的"拖尾"预测
物体中心学习的挑战¶
已有物体中心方法(如Symphonies使用实例查询、GaussianFormer使用高斯点)缺乏显式的物体级对应关系,限制了性能提升。利用MobileSAM等视觉基础模型面临两个挑战:
- 掩码先验限制在2D图像平面,不支持全面的3D特征交互
- 先验掩码可能存在错误和遗漏,导致性能下降
方法详解¶
整体框架¶
Ocean的流程: 1. 图像编码器提取多尺度视觉特征 2. LSS方法将2D特征投影到3D体素空间 3. 基于深度预测选择3D体素查询提案 4. SGDA块:利用MobileSAM掩码在物体级别聚合特征 5. ILD模块:利用实例特征精炼场景BEV表征 6. 3D预测头输出语义占据预测
关键设计¶
1. SemGroup Dual Attention (SGDA) 块¶
SGDA包含两个互补模块:
3D Semantic Group Attention (SGA3D):
功能:利用MobileSAM的实例掩码,在3D空间内对同一实例的体素查询和图像像素进行分组特征交互。
核心思路: - 将3D查询提案投影到图像平面,通过最近邻采样分配实例ID - 同一实例ID的查询和像素被分组到同一簇 - 在簇内使用散射线性注意力(scattered linear attention)进行高效特征聚合
其中 \(A^j\) 是深度相似度矩阵,\(M\) 是实例数量。
3D深度扩展:利用深度预测的概率分布和查询的投影深度之间的相似性,构建深度相似度矩阵 \(A^j\),将2D物体中心学习扩展到3D空间。具体做法巧妙利用了深度bin作为桥梁:像素深度是softmax概率分布,查询深度对应特定bin,从而计算 \(m \times n\) 的深度相似度矩阵。
设计动机:线性注意力使计算复杂度从 \(O(n^2)\) 降到 \(O(n)\),适合处理大量实例和像素。多尺度特征聚合结合了高层语义信息和低层纹理细节。
Global Similarity-Guided Attention (GSGA):
功能:通过可变形注意力机制,利用MobileSAM的中间特征引导全局特征聚合,弥补SGA3D仅关注局部实例交互的不足。
核心思路:计算每个查询提案与MobileSAM中间特征在可变形偏移位置的相似度,作为实例感知权重过滤和强调同一物体的特征:
设计动机:处理MobileSAM掩码的错误和遗漏。可变形注意力允许模型灵活关注超出刚性分割边界的区域,减少掩码不完美的影响。
2. Instance-aware Local Diffusion (ILD) 模块¶
功能:利用实例级特征增强BEV表征,弥补投影限制导致的信息不足。
动态实例解码器(DID): - 基于实例掩码对多尺度分组特征求和,得到实例级聚合表征 - 使用轻量反卷积块从实例特征生成 \(x \times y \times (C_2+1)\) 维的BEV特征 - 使用Gumbel-Softmax动态选择哪些实例参与最终的BEV重建
局部注意力精炼:使用窗口注意力(Swin Transformer风格),以聚合特征为Query、实例感知特征为Key/Value,在局部范围内精炼BEV特征。
损失函数 / 训练策略¶
总损失函数:
- \(\mathcal{L}_{ce}\):交叉熵损失,监督体素语义预测
- \(\mathcal{L}_{scal}^{sem}\)、\(\mathcal{L}_{scal}^{geo}\):尺度感知的语义和几何损失
- \(\mathcal{L}_d\):深度分布监督(\(\lambda_d=0.001\))
- \(\mathcal{L}_{recon}\):BEV重建损失,约束生成的BEV特征质量(\(\lambda_r=0.1\))
训练配置:4×GeForce 3090,AdamW优化器,初始学习率3e-4,权重衰减0.01,EfficientNetB7作为2D骨干。
实验关键数据¶
主实验¶
SemanticKITTI验证集:
| 方法 | IoU↑ | mIoU↑ | 说明 |
|---|---|---|---|
| MonoScene | 34.16 | 11.08 | 首个单目SSC |
| VoxFormer | 42.95 | 12.20 | 深度引导稀疏到密集 |
| OccFormer | 34.53 | 12.32 | 局部-全局分解 |
| Symphonies | 42.19 | 15.04 | 实例查询物体中心 |
| LOMA | 43.01 | 15.10 | 视觉语言融合 |
| CGFormer | 44.41 | 16.63 | 上下文几何感知 |
| HTCL | 44.23 | 17.09 | 利用时序信息 |
| Ocean (Ours) | 45.62 | 17.40 | 物体中心 + MobileSAM |
SSCBench-KITTI360测试集:
| 方法 | IoU↑ | mIoU↑ |
|---|---|---|
| CGFormer | 48.07 | 20.05 |
| SGFormer | 46.35 | 18.30 |
| Ocean (Ours) | 48.19 | 20.28 |
消融实验¶
各模块贡献(SemanticKITTI验证集):
| 配置 | SGA3D | GSGA | LA | DID | IoU↑ | mIoU↑ |
|---|---|---|---|---|---|---|
| M0 (Baseline) | 44.62 | 15.80 | ||||
| M1 | ✓ | 45.77 | 16.49 | |||
| M2 | ✓ | ✓ | 46.01 | 16.80 | ||
| M3 | ✓ | ✓ | ✓ | 45.39 | 17.10 | |
| M4 (Full) | ✓ | ✓ | ✓ | ✓ | 46.40 | 17.39 |
SGA3D模块消融:
| 方法 | IoU↑ | mIoU↑ | 参数量 | FLOPs |
|---|---|---|---|---|
| SGA3D (Ours) | 46.40 | 17.39 | 0.280M | 1.333G |
| SGA3D w/o 多尺度 | 46.44 | 16.64 | 0.280M | 1.298G |
| SGA3D w/o 3D扩展 | 45.84 | 17.30 | 0.280M | 1.333G |
| DFA2D | 46.14 | 16.39 | 0.202M | 2.231G |
| DFA3D | 46.15 | 16.97 | 0.330M | 2.807G |
动态实例解码器融合策略:
| 策略 | IoU↑ | mIoU↑ |
|---|---|---|
| 直接求和 | 45.79 | 16.45 |
| Softmax加权 | 45.89 | 16.88 |
| Sigmoid加权 | 46.30 | 16.92 |
| 动态选择 (Ours) | 46.40 | 17.39 |
关键发现¶
- SGA3D引入实例先验后,IoU提升1.15,mIoU提升0.69,验证物体中心特征学习的有效性
- GSGA补充了SGA3D的局部局限,进一步提升0.31的mIoU
- SGA3D相比DFA3D,mIoU高0.42且参数更少、FLOPs低一半
- 动态实例选择比简单求和在mIoU上提高0.94
- Ocean在识别道路、人行道、交通标志等具有一致表面信息的物体时表现尤为突出
亮点与洞察¶
- 巧妙利用深度bin作为桥梁:将像素深度概率分布与查询投影深度通过深度bin关联,优雅地将2D掩码先验扩展到3D空间
- 双注意力互补设计:SGA3D负责局部实例内精细交互,GSGA补偿掩码错误和遗漏,两者互补
- Gumbel-Softmax动态选择:实例重要性动态学习,避免了手动设计权重或固定融合策略
- 散射线性注意力:将计算复杂度降到线性,使大规模实例处理可行
- 实验设计充分:对每个模块都有详细消融,且与DFA3D等替代方案有公平对比
局限与展望¶
- 远距离和严重遮挡场景仍有困难:视觉信息不足时,模型难以提取判别性特征(论文Figure 7展示了失败案例)
- MobileSAM运行开销:虽然轻量化,但额外的分割模型仍增加了推理时间
- 仅单目输入:未利用多视角或时序信息(HTCL使用时序还能取得17.09 mIoU)
- 物体中心方案对背景类别的提升有限:如terrain等背景类的提升不如前景物体明显
- 可探索将MobileSAM替换为更轻量的分割头,减少推理开销
相关工作与启发¶
- 与Symphonies的对比:同为物体中心方法,但Ocean使用显式的MobileSAM先验,而非隐式的实例查询,mIoU提升2.36
- 与GaussianFormer的关系:都试图用稀疏表征建模物体,但Ocean更侧重实例级显式交互
- 启发:视觉基础模型(SAM系列)的先验可以有效指导3D感知,但需要专门设计来处理其不完美性
评分¶
- 新颖性: ⭐⭐⭐⭐ — 物体中心范式结合MobileSAM先验是有意义的创新
- 实验充分度: ⭐⭐⭐⭐⭐ — 模块消融极其详细,替代方案对比公平
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,图示丰富
- 价值: ⭐⭐⭐⭐ — 为3D SSC引入了新范式,对后续工作有启发
相关论文¶
- [AAAI 2026] Unleashing Semantic and Geometric Priors for 3D Scene Completion
- [CVPR 2026] OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective
- [CVPR 2026] Sparsity-Aware Voxel Attention and Foreground Modulation for 3D Semantic Scene Completion
- [ECCV 2024] Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion
- [AAAI 2026] HD2-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving