跳转至

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

会议: CVPR 2025
arXiv: 2603.06374
代码: 待公开
领域: 3D视觉 / 语义分割
关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 点标注, 涂鸦标注, Mean Teacher

一句话总结

Rewis3d 利用前馈 3D 重建(MapAnything)从 2D 视频中获取 3D 点云作为辅助监督信号,通过双 Student-Teacher 架构和加权跨模态一致性 (CMC) 损失,在仅使用稀疏标注(点/涂鸦/粗标记)的情况下将弱监督 2D 语义分割性能提升 2-7% mIoU,推理时仍为纯 2D。

研究背景与动机

  1. 领域现状:语义分割严重依赖密集像素级标注,稀疏标注可大幅降低标注成本但存在性能差距。现有弱监督方法如 SASFormer(自注意力传播)、TEL(最小生成树伪标签)在复杂场景中难以完全弥补。
  2. 现有痛点:纯 2D 方法仅利用单帧外观线索来传播稀疏监督,在几何复杂的户外场景中受限于遮挡、尺度变化和长距离依赖。
  3. 核心矛盾:3D 几何结构能提供强大的场景约束实现跨视角一致性,但传统方法需要 LiDAR 等 3D 传感器,限制了适用范围。
  4. 本文要解决什么:如何仅使用 2D 视频序列获取 3D 几何先验来增强弱监督语义分割,且推理时无需 3D 数据?
  5. 切入角度:利用最新前馈 3D 重建模型(MapAnything)从视频中重建密集 3D 点云,将 3D 作为训练时的辅助监督信号。
  6. 核心idea一句话:3D 几何结构提供跨视角一致性约束,一个视角的稀疏标注可通过 3D 重建传播到所有可见视角。

方法详解

整体框架

输入 2D 视频 → MapAnything 前馈重建得到密集 3D 点云+置信度 → 2D 和 3D 两个 Mean Teacher 分支独立训练(Base Training)→ 跨模态一致性 (CMC):2D teacher → 3D student, 3D teacher → 2D student → 输出纯 2D 分割模型。

关键设计

  1. 3D 场景重建与 View-Aware Sampling
  2. 做什么:用 MapAnything 从视频重建密集 3D 点云,获取逐点重建置信度 \(c_i^{\text{rec}}\)
  3. 为每张目标图像生成专属 120K 点子采样——60% 来自该视角自己的点(确保稠密 2D-3D 对应),40% 来自空间邻域(提供全局上下文)
  4. 设计动机:全场景随机采样(60M+→120K)会导致每帧仅约 140 个对应点,远不够训练 CMC 损失

  5. 双 Student-Teacher + 跨模态一致性 (CMC)

  6. 做什么:2D 分支 SegFormer-B4 + 3D 分支 Point Transformer V3,各自带 EMA Teacher
  7. CMC 核心:一方 Teacher 伪标签监督另一方 Student。3D teacher → 2D student: \(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\)
  8. 双置信度加权\(w_i = \max(\text{softmax}(T_{3D}(p_i))) \cdot c_i^{\text{rec}}\),预测置信度 × 重建置信度
  9. 设计动机:双重过滤确保只有可靠预测+可靠几何的点才提供监督

  10. 3D 标签传播

  11. 做什么:将 2D 稀疏标注通过反投影直接传递到 3D 点,积累多视角标注
  12. 核心思路:每个 3D 点来源于某个 2D 像素,1:1 映射标签。跨所有源图像积累后形成统一的稀疏 3D 标签

损失函数

\[\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D, 3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D} \mathcal{L}_C^{2D} + \lambda_{3D} \mathcal{L}_C^{3D}\]

Base Training 15 epochs → CMC 线性 ramp-up 5 epochs 到 \(\lambda=0.1\)

实验关键数据

主实验(涂鸦监督, mIoU%)

方法 Waymo KITTI-360 NYUv2 SS/FS比
Fully Supervised 59.0 68.4 51.1
EMA Baseline 49.4 60.3 42.9 83.7%
SASFormer 37.8 46.4 44.7 64.1%
TEL 42.4 59.2 38.3 71.9%
Rewis3d (Recon) 53.3 63.4 46.1 90.3%

不同标注类型 (Cityscapes)

标注类型 EMA Rewis3d 提升
点标注 50.5 56.5 +6.0
涂鸦 61.2 68.1 +6.9
粗标记 66.5 68.6 +2.1

消融实验 (Waymo)

配置 mIoU
无过滤 51.9
+ 预测置信度 52.7
+ 双置信度 53.3
随机采样 51.9
View-Aware 53.3 (+1.4)
单帧重建 52.1
多视角重建 53.3 (+1.2)

关键发现

  • 重建 3D 优于真实 LiDAR(+1.5 mIoU):重建点云更密集+有置信度分数可做过滤
  • 双置信度互补(预测+0.8, 重建+0.2, 组合+1.4)
  • 标注越稀疏,几何监督增益越大(点标注+6.0 > 粗标记+2.1)

亮点与洞察

  • "推理无 3D"设计:3D 仅训练时使用,推理完全 2D,实用性极高
  • 重建3D > 真实3D 的反直觉发现:密集重建+置信度过滤 > 稀疏真实传感器
  • View-Aware Sampling:解决大规模点云中2D-3D对应密度控制的实际问题

局限性 / 可改进方向

  • 依赖视频序列进行 3D 重建——单图像数据集适用性有限
  • MapAnything 对动态物体重建可能有噪声
  • 3D 预处理成本较高(200+ 图像 → 60M+ 点)

相关工作与启发

  • vs SASFormer/TEL:纯 2D 方法在复杂户外场景中受限,Rewis3d 引入 3D 约束获得 7-15% 提升
  • vs 2DPASS:2DPASS 需真实 LiDAR,Rewis3d 仅需 2D 视频且推理完全 2D

评分

  • 新颖性: ⭐⭐⭐⭐ 3D 重建作为弱监督辅助信号是新颖思路
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 数据集、3 标注类型、充分消融
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰
  • 价值: ⭐⭐⭐⭐⭐ 实用性强,对弱监督分割有显著推动
  • vs 纯 2D 弱监督: 缺乏空间约束。Rewis3d 用 3D 重建提供额外几何先验

评分

  • 新颖性: ⭐⭐⭐⭐ 重建辅助弱监督的思路新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多消融
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐⭐ 新的弱监督范式