跳转至

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

会议: CVPR2026 arXiv: 2603.06374 代码: 待发布(论文接收后公开) 领域: 3D视觉 / 弱监督语义分割 关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 双师生架构, 点云, 稀疏标注

一句话总结

Rewis3d 利用前馈式多视图3D重建生成的点云作为辅助监督信号,通过双师生架构实现2D图像与3D点云之间的双向跨模态一致性学习,在稀疏标注(点/涂鸦/粗标注)下将弱监督语义分割性能提升2-7% mIoU,推理时仅需2D图像。

背景与动机

  1. 密集标注代价高昂:语义分割依赖像素级标注,获取成本极高,严重制约了大规模数据集的构建
  2. 弱监督存在性能差距:点标注、涂鸦标注等稀疏标注虽然大幅降低标注成本,但与全监督相比仍存在明显性能差距
  3. 现有WSSS方法局限于2D平面:SASFormer、TEL等方法仅在2D图像平面内传播监督信号,难以处理遮挡复杂的场景
  4. 3D几何提供互补信息:3D几何结构能提供跨视角一致性约束,将稀疏标注从单帧扩展到整个3D场景
  5. 前馈3D重建已成熟:MapAnything等模型可从2D视频序列直接重建高质量3D点云,无需LiDAR等专用传感器
  6. 推理效率需求:方法应在训练时利用3D信息,推理时仅使用2D图像,避免部署3D传感器的额外成本

方法详解

整体框架

Rewis3d 包含三个核心组件:(1) 2D分割分支(SegFormer-B4);(2) 3D分割分支(Point Transformer V3);(3) 跨模态一致性(CMC)模块实现双向知识传递。训练分两阶段:基础训练阶段独立训练两个分支的师生模型,随后引入CMC损失实现跨模态学习。推理时仅使用2D分支。

3D场景重建与预处理

  • 重建模型:使用 MapAnything 从2D视频序列前馈式重建密集点云 \(P=\{p_i\}\) 及逐点重建置信度 \(c_i^{\text{rec}}\)
  • 视角感知采样:为每张目标图像生成独立的120K点子采样——60%(72K)来自当前视角的点(确保密集2D-3D对应),40%(48K)来自周围场景(提供上下文)。相比随机采样(每图仅~140对应点),视角感知采样保证~72K对应点
  • 3D标签生成:通过反投影将2D稀疏标注直接映射到3D点云,跨所有视角聚合形成统一的稀疏3D标签

双师生架构

每个分支均采用 Mean Teacher 架构,教师权重通过EMA更新:\(\theta_t^{\text{teacher}} \leftarrow \alpha \theta_{t-1}^{\text{teacher}} + (1-\alpha) \theta_t^{\text{student}}\)\(\alpha=0.99\))。学生在标注区域用交叉熵监督,在未标注区域用教师伪标签的KL散度一致性损失训练。

加权跨模态一致性损失

CMC损失的核心是双置信度加权

\[w_i = \underbrace{\max(\text{softmax}(T_{3D}(p_i)))}_{\text{预测置信度}} \cdot \underbrace{c_i^{\text{rec}}}_{\text{重建置信度}}\]

3D教师监督2D学生的损失:\(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\),对称地2D教师监督3D学生。总损失:

\[\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D,3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D} \mathcal{L}_C^{2D} + \lambda_{3D} \mathcal{L}_C^{3D}\]

学生输入使用更强的增强(Cutout/AugMix/RandomRotation等),教师使用弱增强,促进鲁棒特征学习。

实验关键数据

涂鸦监督下的主要结果(mIoU %)

方法 Waymo KITTI-360 NYUv2
全监督 59.0 68.4 51.1
EMA基线 49.4 60.3 42.9
SASFormer 37.8 46.4 44.7
TEL 42.4 59.2 38.3
Rewis3d (Recon) 53.3 63.4 46.1

在Waymo上比EMA基线提升 +3.9,比TEL提升 +10.9,比SASFormer提升 +15.5

Cityscapes 多标注类型泛化(mIoU %)

方法 点标注 涂鸦标注 粗标注
EMA基线 50.5 61.2 66.5
Rewis3d 56.5 (+6.0) 68.1 (+6.9) 68.6 (+2.1)

消融实验(Waymo mIoU %)

配置 mIoU
EMA基线(仅2D) 49.4
+CMC(无置信度滤波) 51.9
+预测置信度 52.7
+重建置信度 52.1
+双置信度(完整方案) 53.3
随机采样(vs视角感知) 51.9 vs 53.3
单帧重建(vs多视图) 52.1 vs 53.3

关键发现:重建的3D点云(53.3)反而优于真实LiDAR(51.8),原因是重建点云更密集且具有可用的重建置信度进行噪声滤波。

亮点

  1. 首次将前馈3D重建引入弱监督分割:巧妙地将3D几何作为训练时的辅助信号,推理仅需2D,无额外成本
  2. 重建3D优于真实3D:反直觉的发现——重建点云比LiDAR更好,归因于更密集的覆盖和双置信度滤波机制
  3. 双置信度加权设计精巧:同时考虑预测置信度和重建置信度,有效抑制噪声伪标签
  4. 视角感知采样:解决了大规模点云(60M+)与逐图训练之间的矛盾,保证密集2D-3D对应
  5. 泛化性强:在点/涂鸦/粗标注三种标注类型、室内外四个数据集上均一致提升
  6. 架构无关:可替换为EoMT等不同backbone仍有效

局限性

  1. 依赖视频序列:3D重建需要视频或多视图输入,单图场景下仅能做单帧重建(效果较弱,+2.7 vs +3.9)
  2. 动态物体处理不足:MapAnything未针对动态内容优化,驾驶场景中的运动物体可能引入几何噪声
  3. 训练成本增加:需要前处理3D重建 + 双分支师生训练,训练开销显著高于纯2D方法
  4. 室内场景增益有限:NYUv2上的提升(42.9→46.1)不如室外场景显著,因室内物体3D结构不够鲜明
  5. 未与基础模型方法对比:缺少与SAM等基础模型生成伪标注的方法的比较

相关工作

  • SASFormer (ICME 2023):用Transformer自注意力在2D内传播稀疏监督,在场景级数据集上效果有限
  • TEL (CVPR 2022):基于最小生成树的能量损失,通过层次结构生成伪标签
  • Scribbles4All (NeurIPS 2024):提供统一的涂鸦标注基准,本文的Mean Teacher基线建立在此基础上
  • MapAnything:前馈式多视图3D重建模型,本文用于生成3D点云和重建置信度
  • DUSt3R / MASt3R:早期前馈3D重建方法,需后处理全局对齐;MapAnything直接输出完整结果
  • 2DPASS / Unal et al.:将2D知识蒸馏到3D网络用于LiDAR分割,方向相反(2D→3D而非3D→2D)

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将前馈3D重建与弱监督分割结合,双置信度加权和视角感知采样设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、三种标注类型、完整消融、定性分析、backbone泛化验证
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富,技术描述准确
  • 价值: ⭐⭐⭐⭐ — 为弱监督分割提供了实用的3D辅助范式,推理无额外开销,具有较强应用价值