Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation¶
会议: CVPR 2025
arXiv: 2603.06374
代码: 待公开
领域: 3D视觉 / 语义分割
关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 点标注, 涂鸦标注, Mean Teacher
一句话总结¶
Rewis3d 利用前馈 3D 重建(MapAnything)从 2D 视频中获取 3D 点云作为辅助监督信号,通过双 Student-Teacher 架构和加权跨模态一致性 (CMC) 损失,在仅使用稀疏标注(点/涂鸦/粗标记)的情况下将弱监督 2D 语义分割性能提升 2-7% mIoU,推理时仍为纯 2D。
研究背景与动机¶
- 领域现状:语义分割严重依赖密集像素级标注,稀疏标注可大幅降低标注成本但存在性能差距。现有弱监督方法如 SASFormer(自注意力传播)、TEL(最小生成树伪标签)在复杂场景中难以完全弥补。
- 现有痛点:纯 2D 方法仅利用单帧外观线索来传播稀疏监督,在几何复杂的户外场景中受限于遮挡、尺度变化和长距离依赖。
- 核心矛盾:3D 几何结构能提供强大的场景约束实现跨视角一致性,但传统方法需要 LiDAR 等 3D 传感器,限制了适用范围。
- 本文要解决什么:如何仅使用 2D 视频序列获取 3D 几何先验来增强弱监督语义分割,且推理时无需 3D 数据?
- 切入角度:利用最新前馈 3D 重建模型(MapAnything)从视频中重建密集 3D 点云,将 3D 作为训练时的辅助监督信号。
- 核心idea一句话:3D 几何结构提供跨视角一致性约束,一个视角的稀疏标注可通过 3D 重建传播到所有可见视角。
方法详解¶
整体框架¶
输入 2D 视频 → MapAnything 前馈重建得到密集 3D 点云+置信度 → 2D 和 3D 两个 Mean Teacher 分支独立训练(Base Training)→ 跨模态一致性 (CMC):2D teacher → 3D student, 3D teacher → 2D student → 输出纯 2D 分割模型。
关键设计¶
- 3D 场景重建与 View-Aware Sampling:
- 做什么:用 MapAnything 从视频重建密集 3D 点云,获取逐点重建置信度 \(c_i^{\text{rec}}\)
- 为每张目标图像生成专属 120K 点子采样——60% 来自该视角自己的点(确保稠密 2D-3D 对应),40% 来自空间邻域(提供全局上下文)
-
设计动机:全场景随机采样(60M+→120K)会导致每帧仅约 140 个对应点,远不够训练 CMC 损失
-
双 Student-Teacher + 跨模态一致性 (CMC):
- 做什么:2D 分支 SegFormer-B4 + 3D 分支 Point Transformer V3,各自带 EMA Teacher
- CMC 核心:一方 Teacher 伪标签监督另一方 Student。3D teacher → 2D student: \(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\)
- 双置信度加权:\(w_i = \max(\text{softmax}(T_{3D}(p_i))) \cdot c_i^{\text{rec}}\),预测置信度 × 重建置信度
-
设计动机:双重过滤确保只有可靠预测+可靠几何的点才提供监督
-
3D 标签传播:
- 做什么:将 2D 稀疏标注通过反投影直接传递到 3D 点,积累多视角标注
- 核心思路:每个 3D 点来源于某个 2D 像素,1:1 映射标签。跨所有源图像积累后形成统一的稀疏 3D 标签
损失函数¶
\[\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D, 3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D} \mathcal{L}_C^{2D} + \lambda_{3D} \mathcal{L}_C^{3D}\]
Base Training 15 epochs → CMC 线性 ramp-up 5 epochs 到 \(\lambda=0.1\)。
实验关键数据¶
主实验(涂鸦监督, mIoU%)¶
| 方法 | Waymo | KITTI-360 | NYUv2 | SS/FS比 |
|---|---|---|---|---|
| Fully Supervised | 59.0 | 68.4 | 51.1 | — |
| EMA Baseline | 49.4 | 60.3 | 42.9 | 83.7% |
| SASFormer | 37.8 | 46.4 | 44.7 | 64.1% |
| TEL | 42.4 | 59.2 | 38.3 | 71.9% |
| Rewis3d (Recon) | 53.3 | 63.4 | 46.1 | 90.3% |
不同标注类型 (Cityscapes)¶
| 标注类型 | EMA | Rewis3d | 提升 |
|---|---|---|---|
| 点标注 | 50.5 | 56.5 | +6.0 |
| 涂鸦 | 61.2 | 68.1 | +6.9 |
| 粗标记 | 66.5 | 68.6 | +2.1 |
消融实验 (Waymo)¶
| 配置 | mIoU |
|---|---|
| 无过滤 | 51.9 |
| + 预测置信度 | 52.7 |
| + 双置信度 | 53.3 |
| 随机采样 | 51.9 |
| View-Aware | 53.3 (+1.4) |
| 单帧重建 | 52.1 |
| 多视角重建 | 53.3 (+1.2) |
关键发现¶
- 重建 3D 优于真实 LiDAR(+1.5 mIoU):重建点云更密集+有置信度分数可做过滤
- 双置信度互补(预测+0.8, 重建+0.2, 组合+1.4)
- 标注越稀疏,几何监督增益越大(点标注+6.0 > 粗标记+2.1)
亮点与洞察¶
- "推理无 3D"设计:3D 仅训练时使用,推理完全 2D,实用性极高
- 重建3D > 真实3D 的反直觉发现:密集重建+置信度过滤 > 稀疏真实传感器
- View-Aware Sampling:解决大规模点云中2D-3D对应密度控制的实际问题
局限性 / 可改进方向¶
- 依赖视频序列进行 3D 重建——单图像数据集适用性有限
- MapAnything 对动态物体重建可能有噪声
- 3D 预处理成本较高(200+ 图像 → 60M+ 点)
相关工作与启发¶
- vs SASFormer/TEL:纯 2D 方法在复杂户外场景中受限,Rewis3d 引入 3D 约束获得 7-15% 提升
- vs 2DPASS:2DPASS 需真实 LiDAR,Rewis3d 仅需 2D 视频且推理完全 2D
评分¶
- 新颖性: ⭐⭐⭐⭐ 3D 重建作为弱监督辅助信号是新颖思路
- 实验充分度: ⭐⭐⭐⭐⭐ 4 数据集、3 标注类型、充分消融
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰
- 价值: ⭐⭐⭐⭐⭐ 实用性强,对弱监督分割有显著推动
- vs 纯 2D 弱监督: 缺乏空间约束。Rewis3d 用 3D 重建提供额外几何先验
评分¶
- 新颖性: ⭐⭐⭐⭐ 重建辅助弱监督的思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多消融
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ 新的弱监督范式