跳转至

Towards 3D Object-Centric Feature Learning for Semantic Scene Completion

会议: AAAI 2026
arXiv: 2511.13031
代码: 无
领域: 自动驾驶 / 3D语义场景补全
关键词: 语义场景补全, 物体中心学习, MobileSAM, 线性注意力, BEV表征

一句话总结

提出Ocean框架,利用MobileSAM提取的实例掩码引导3D物体中心特征学习,通过语义组注意力(SGA3D)和全局相似性引导注意力(GSGA)在3D空间实现实例级特征聚合,并用实例感知局部扩散(ILD)模块精炼场景表征,在SemanticKITTI和SSCBench-KITTI360上达到SOTA。

研究背景与动机

问题背景

视觉3D语义场景补全(SSC)旨在将3D空间划分为体素并预测每个体素的语义标签,生成密集的3D环境表征,服务于自动驾驶的下游规划任务。相比LiDAR方案,单目视觉方案成本更低、部署更方便。

现有方法的范式与问题

大多数现有方法遵循自我中心范式(ego-centric paradigm),将2D特征投影到3D空间后在整个场景上聚合和扩散特征。这种全局范式带来两个核心问题:

语义歧义:不同物体的特征被融合,导致语义混淆。例如路边多辆车之间的空白空间被错误赋予与车辆相似的特征

几何歧义:空体素和占据体素的特征混合,导致几何预测不准确。表现为车辆后方出现错误的"拖尾"预测

物体中心学习的挑战

已有物体中心方法(如Symphonies使用实例查询、GaussianFormer使用高斯点)缺乏显式的物体级对应关系,限制了性能提升。利用MobileSAM等视觉基础模型面临两个挑战:

  1. 掩码先验限制在2D图像平面,不支持全面的3D特征交互
  2. 先验掩码可能存在错误和遗漏,导致性能下降

方法详解

整体框架

Ocean的流程: 1. 图像编码器提取多尺度视觉特征 2. LSS方法将2D特征投影到3D体素空间 3. 基于深度预测选择3D体素查询提案 4. SGDA块:利用MobileSAM掩码在物体级别聚合特征 5. ILD模块:利用实例特征精炼场景BEV表征 6. 3D预测头输出语义占据预测

关键设计

1. SemGroup Dual Attention (SGDA) 块

SGDA包含两个互补模块:

3D Semantic Group Attention (SGA3D)

功能:利用MobileSAM的实例掩码,在3D空间内对同一实例的体素查询和图像像素进行分组特征交互。

核心思路: - 将3D查询提案投影到图像平面,通过最近邻采样分配实例ID - 同一实例ID的查询和像素被分组到同一簇 - 在簇内使用散射线性注意力(scattered linear attention)进行高效特征聚合

\[\tilde{Q} = \text{Concat}\left[\frac{\varphi(Q^j) A^j \sum_{i=1}^{m^j} \varphi(K_i^j)^T V_i^j}{\varphi(Q^j) \sum_{i=1}^{m^j} \varphi(K_i^j)^T}\right]_{j=1}^{M}\]

其中 \(A^j\) 是深度相似度矩阵,\(M\) 是实例数量。

3D深度扩展:利用深度预测的概率分布和查询的投影深度之间的相似性,构建深度相似度矩阵 \(A^j\),将2D物体中心学习扩展到3D空间。具体做法巧妙利用了深度bin作为桥梁:像素深度是softmax概率分布,查询深度对应特定bin,从而计算 \(m \times n\) 的深度相似度矩阵。

设计动机:线性注意力使计算复杂度从 \(O(n^2)\) 降到 \(O(n)\),适合处理大量实例和像素。多尺度特征聚合结合了高层语义信息和低层纹理细节。

Global Similarity-Guided Attention (GSGA)

功能:通过可变形注意力机制,利用MobileSAM的中间特征引导全局特征聚合,弥补SGA3D仅关注局部实例交互的不足。

核心思路:计算每个查询提案与MobileSAM中间特征在可变形偏移位置的相似度,作为实例感知权重过滤和强调同一物体的特征:

\[\hat{Q} = \sum_k (G_k W \mathcal{F}(p_q + \Delta p_k)) \odot A_k\]

设计动机:处理MobileSAM掩码的错误和遗漏。可变形注意力允许模型灵活关注超出刚性分割边界的区域,减少掩码不完美的影响。

2. Instance-aware Local Diffusion (ILD) 模块

功能:利用实例级特征增强BEV表征,弥补投影限制导致的信息不足。

动态实例解码器(DID): - 基于实例掩码对多尺度分组特征求和,得到实例级聚合表征 - 使用轻量反卷积块从实例特征生成 \(x \times y \times (C_2+1)\) 维的BEV特征 - 使用Gumbel-Softmax动态选择哪些实例参与最终的BEV重建

\[\hat{w}_l = \frac{\mathcal{Z}_l w_l}{\sum_{l=1}^L \mathcal{Z}_l w_l + \epsilon}, \quad \hat{\mathcal{P}} = \sum_{l=1}^L \mathcal{P}_l \odot \hat{w}_l\]

局部注意力精炼:使用窗口注意力(Swin Transformer风格),以聚合特征为Query、实例感知特征为Key/Value,在局部范围内精炼BEV特征。

损失函数 / 训练策略

总损失函数:

\[\mathcal{L} = \lambda_d \mathcal{L}_d + \lambda_r \mathcal{L}_{recon} + \mathcal{L}_{ce} + \mathcal{L}_{scal}^{geo} + \mathcal{L}_{scal}^{sem}\]
  • \(\mathcal{L}_{ce}\):交叉熵损失,监督体素语义预测
  • \(\mathcal{L}_{scal}^{sem}\)\(\mathcal{L}_{scal}^{geo}\):尺度感知的语义和几何损失
  • \(\mathcal{L}_d\):深度分布监督(\(\lambda_d=0.001\)
  • \(\mathcal{L}_{recon}\):BEV重建损失,约束生成的BEV特征质量(\(\lambda_r=0.1\)

训练配置:4×GeForce 3090,AdamW优化器,初始学习率3e-4,权重衰减0.01,EfficientNetB7作为2D骨干。

实验关键数据

主实验

SemanticKITTI验证集

方法 IoU↑ mIoU↑ 说明
MonoScene 34.16 11.08 首个单目SSC
VoxFormer 42.95 12.20 深度引导稀疏到密集
OccFormer 34.53 12.32 局部-全局分解
Symphonies 42.19 15.04 实例查询物体中心
LOMA 43.01 15.10 视觉语言融合
CGFormer 44.41 16.63 上下文几何感知
HTCL 44.23 17.09 利用时序信息
Ocean (Ours) 45.62 17.40 物体中心 + MobileSAM

SSCBench-KITTI360测试集

方法 IoU↑ mIoU↑
CGFormer 48.07 20.05
SGFormer 46.35 18.30
Ocean (Ours) 48.19 20.28

消融实验

各模块贡献(SemanticKITTI验证集):

配置 SGA3D GSGA LA DID IoU↑ mIoU↑
M0 (Baseline) 44.62 15.80
M1 45.77 16.49
M2 46.01 16.80
M3 45.39 17.10
M4 (Full) 46.40 17.39

SGA3D模块消融

方法 IoU↑ mIoU↑ 参数量 FLOPs
SGA3D (Ours) 46.40 17.39 0.280M 1.333G
SGA3D w/o 多尺度 46.44 16.64 0.280M 1.298G
SGA3D w/o 3D扩展 45.84 17.30 0.280M 1.333G
DFA2D 46.14 16.39 0.202M 2.231G
DFA3D 46.15 16.97 0.330M 2.807G

动态实例解码器融合策略

策略 IoU↑ mIoU↑
直接求和 45.79 16.45
Softmax加权 45.89 16.88
Sigmoid加权 46.30 16.92
动态选择 (Ours) 46.40 17.39

关键发现

  1. SGA3D引入实例先验后,IoU提升1.15,mIoU提升0.69,验证物体中心特征学习的有效性
  2. GSGA补充了SGA3D的局部局限,进一步提升0.31的mIoU
  3. SGA3D相比DFA3D,mIoU高0.42且参数更少、FLOPs低一半
  4. 动态实例选择比简单求和在mIoU上提高0.94
  5. Ocean在识别道路、人行道、交通标志等具有一致表面信息的物体时表现尤为突出

亮点与洞察

  1. 巧妙利用深度bin作为桥梁:将像素深度概率分布与查询投影深度通过深度bin关联,优雅地将2D掩码先验扩展到3D空间
  2. 双注意力互补设计:SGA3D负责局部实例内精细交互,GSGA补偿掩码错误和遗漏,两者互补
  3. Gumbel-Softmax动态选择:实例重要性动态学习,避免了手动设计权重或固定融合策略
  4. 散射线性注意力:将计算复杂度降到线性,使大规模实例处理可行
  5. 实验设计充分:对每个模块都有详细消融,且与DFA3D等替代方案有公平对比

局限与展望

  1. 远距离和严重遮挡场景仍有困难:视觉信息不足时,模型难以提取判别性特征(论文Figure 7展示了失败案例)
  2. MobileSAM运行开销:虽然轻量化,但额外的分割模型仍增加了推理时间
  3. 仅单目输入:未利用多视角或时序信息(HTCL使用时序还能取得17.09 mIoU)
  4. 物体中心方案对背景类别的提升有限:如terrain等背景类的提升不如前景物体明显
  5. 可探索将MobileSAM替换为更轻量的分割头,减少推理开销

相关工作与启发

  • 与Symphonies的对比:同为物体中心方法,但Ocean使用显式的MobileSAM先验,而非隐式的实例查询,mIoU提升2.36
  • 与GaussianFormer的关系:都试图用稀疏表征建模物体,但Ocean更侧重实例级显式交互
  • 启发:视觉基础模型(SAM系列)的先验可以有效指导3D感知,但需要专门设计来处理其不完美性

评分

  • 新颖性: ⭐⭐⭐⭐ — 物体中心范式结合MobileSAM先验是有意义的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ — 模块消融极其详细,替代方案对比公平
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图示丰富
  • 价值: ⭐⭐⭐⭐ — 为3D SSC引入了新范式,对后续工作有启发

相关论文