Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation¶
会议: CVPR 2026
arXiv: 2603.06374
代码: 待发布
领域: 分割 / 弱监督分割 / 3D视觉
关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 双学生-教师, 稀疏标注
一句话总结¶
Rewis3d 首次将 feed-forward 3D 场景重建作为辅助监督信号引入弱监督语义分割,通过双学生-教师架构实现 2D 图像与重建 3D 点云间的双向跨模态一致性学习(CMC),配合双置信度过滤和视角感知采样,在仅有稀疏标注(点、涂鸦、粗标注)下将多个数据集的 mIoU 提升 2-7%,且推理时仅需 2D 输入。
研究背景与动机¶
- 领域现状:语义分割依赖大量像素级密集标注,弱监督方法(点/涂鸦/粗标注)可显著降低标注成本。现有 WSSS 方法如 SASFormer 和 TEL 通过特殊架构和损失函数在图像平面内传播标注信息。
- 现有痛点:这些方法仅在 2D 图像平面内操作,难以处理几何复杂的户外场景中的遮挡和尺度变化问题,标注传播范围有限。
- 核心矛盾:稀疏标注的信息量不足以覆盖整个场景,而 2D 方法缺乏跨视角一致性约束来弥补这一不足。
- 本文目标 如何利用额外的几何结构信息来增强稀疏标注的传播效果?
- 切入角度:近期 feed-forward 3D 重建(如 MapAnything)可以从 2D 视频序列直接恢复高保真 3D 点云。当一个物体在某个视角被稀疏标注时,其 3D 结构可以将标注传递到该物体出现的所有其他视角。
- 核心 idea:利用重建的 3D 几何结构作为跨视角一致性桥梁,在训练阶段实现 2D-3D 双向知识传递来增强弱监督分割,推理时保持纯 2D。
方法详解¶
整体框架¶
Rewis3d 包含三个核心组件:(1) 2D 分割分支,(2) 3D 分割分支,(3) 跨模态一致性(CMC)模块。输入为 2D 视频序列及其稀疏标注。首先用 MapAnything 将视频重建为 3D 点云,将稀疏 2D 标注投射到 3D 空间。然后两个分支各自使用 Mean Teacher 架构进行训练,最后 CMC 模块实现两个分支教师-学生间的双向监督。推理时仅使用 2D 分支。
关键设计¶
-
3D 场景重建与预处理:
- 功能:从 2D 视频生成带置信度的 3D 点云,并为每张目标图像创建专用的点云子采样
- 核心思路:用 MapAnything 进行前馈式多视角立体重建,直接输出点云 \(P=\{p_i\}\) 和逐点重建置信度 \(c_i^{\text{rec}}\)。提出视角感知采样策略——为每张目标图像生成 120K 点的子采样,其中 60%(72K)来自当前视角的对应点以保证密集 2D-3D 对应关系,40%(48K)来自周围场景提供上下文。3D 标签通过将 2D 稀疏标注逆投影到对应 3D 点来生成。
- 设计动机:完整场景常有 60M+ 点,全局随机采样到 120K 后每张图像仅约 140 个对应点,远不足以训练 CMC 损失;视角感知采样保证每张图约 72K 对应关系。
-
双学生-教师架构:
- 功能:为 2D 和 3D 分支各建立学生-教师结构,提供稳定的伪标签用于无监督学习和跨模态监督
- 核心思路:每个分支采用 Mean Teacher,教师权重通过 EMA 更新 \(\theta_t^{\text{teacher}} \leftarrow \alpha \theta_{t-1}^{\text{teacher}} + (1-\alpha)\theta_t^{\text{student}}\)(\(\alpha=0.99\))。学生在标注区域用交叉熵损失 \(\mathcal{L}_S\),在未标注区域用 KL 散度一致性损失 \(\mathcal{L}_U\) 与教师伪标签对齐。引入置信度权重 \(w_t\)(教师最大类别概率超过阈值 \(\tau\) 的像素比例)自适应缩放一致性损失。
- 设计动机:Mean Teacher 在弱监督设置下特别有效,EMA 更新的教师提供稳定监督目标,适合作为跨模态损失的可靠伪标签源。
-
加权跨模态一致性(CMC)损失:
- 功能:实现 2D 与 3D 分支间的双向知识传递——3D 教师监督 2D 学生,2D 教师监督 3D 学生
- 核心思路:对于 3D 教师→2D 学生方向,用加权交叉熵损失 \(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\),其中权重 \(w_i = \max(\text{softmax}(T_{3D}(p_i))) \cdot c_i^{\text{rec}}\) 结合预测置信度和重建置信度两个信号。对称地定义 \(\mathcal{L}_C^{3D}\)。对学生施加更强的数据增强(2D: RandomCrop/Cutout/AugMix;3D: RandomRotation/RandomScale/RandomJitter),教师输入较弱增强。
- 设计动机:双置信度过滤确保监督主要来自可靠预测 + 高质量重建几何区域,抑制噪声伪标签的影响。
损失函数 / 训练策略¶
总损失为:\(\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D, 3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D}\mathcal{L}_C^{2D} + \lambda_{3D}\mathcal{L}_C^{3D}\)。分两阶段训练:第一阶段(Base Training,15 epochs)独立训练两个分支;第二阶段引入 CMC 损失并在 5 个 epoch 内线性 ramp up 到 \(\lambda=0.1\)。2D 骨干用 SegFormer-B4,3D 骨干用 Point Transformer V3。
实验关键数据¶
主实验¶
| 数据集 | 指标 | Rewis3d (Recon) | EMA (基线) | TEL | SASFormer | 提升 (vs EMA) |
|---|---|---|---|---|---|---|
| Waymo | mIoU | 53.3% | 49.4% | 42.4% | 37.8% | +3.9% |
| KITTI-360 | mIoU | 63.4% | 60.3% | 59.2% | 46.4% | +3.1% |
| NYUv2 | mIoU | 46.1% | 42.9% | 38.3% | 44.7% | +3.2% |
Cityscapes 跨标注类型泛化:
| 标注类型 | EMA | Rewis3d | 提升 |
|---|---|---|---|
| 点标注 | 50.5% | 56.5% | +6.0% |
| 涂鸦标注 | 61.2% | 68.1% | +6.9% |
| 粗标注 | 66.5% | 68.6% | +2.1% |
消融实验¶
| 配置 | Waymo mIoU | 说明 |
|---|---|---|
| EMA 基线 (仅 2D) | 49.4% | 无 3D 辅助 |
| + CMC (无过滤) | 51.9% | 无置信度过滤 |
| + 预测置信度 | 52.7% | +0.8% |
| + 重建置信度 | 52.1% | +0.2% |
| + 双置信度 (完整) | 53.3% | 两者互补 |
| 随机采样 | 51.9% | 仅约 140 对应点/图像 |
| 视角感知采样 | 53.3% | +1.4% |
| 单帧重建 | 52.1% | 几何不够丰富 |
| 多视角重建 | 53.3% | +1.2% |
关键发现¶
- 重建 3D 优于真实 3D:用 MapAnything 重建的点云一致性地优于真实 LiDAR/深度数据。原因有二:(1) 重建点云比 LiDAR 更密集完整;(2) 重建提供逐点置信度可用于双置信度过滤,而真实 3D 数据无此信号。
- 视角感知采样贡献最大:+1.4 mIoU,保证了足够的 2D-3D 对应点数用于 CMC 损失。
- 标注越稀疏优势越大:在极稀疏涂鸦设置下性能差距进一步扩大,体现了几何监督在标注不足时的价值。
- 架构无关:替换为 EoMT 骨干仍然有一致性提升。
亮点与洞察¶
- 重建优于真实的反直觉发现:重建 3D 因更密集且带置信度而优于 LiDAR,打破了"真实数据必然更好"的假设。这提示其他跨模态任务也可考虑用重建数据替代传感器数据。
- 视角感知采样设计精巧:60/40 分配比例既保证目标图像的密集 2D-3D 对应(用于 CMC),又保留全局上下文(用于 3D 分割),一举两得。
- 纯 2D 推理:3D 分支仅在训练时使用,推理时零额外开销,实用性极强。可迁移思路:其他需要多模态数据的任务也可考虑"训练时多模态、推理时单模态"。
局限与展望¶
- 当前 3D 重建模型不显式处理动态物体,驾驶场景中运动物体会引入几何噪声
- 需要视频序列作为输入进行 3D 重建,纯单图数据集适用性受限(但 Cityscapes 实验表明单帧重建也有 +2.7% 提升)
- MapAnything 重建本身的计算成本未详细讨论
- 未来方向:集成显式处理动态场景的重建模型可进一步提升效果
相关工作与启发¶
- vs SASFormer/TEL: 纯 2D 方法在图像平面内传播标注,受限于外观相似性;本文引入 3D 几何约束实现跨视角传播
- vs 2DPASS/Unal: 这些方法用 2D→3D 蒸馏做 LiDAR 分割;本文反向操作 3D→2D,且使用重建几何而非真实传感器
- vs WSSS + 图像级标注: 点/涂鸦/粗标注提供空间定位,配合 3D 几何效果更好
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 3D 重建信号引入 WSSS,方向新颖但各组件(Mean Teacher/CMC/置信度过滤)相对标准
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集、3 种标注类型、全面消融、真实vs重建对比
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,图表丰富,消融彻底
- 价值: ⭐⭐⭐⭐ 实用性强(推理零开销),但依赖视频输入限制了部分应用场景
相关论文¶
- [CVPR 2026] Learning 3D Reconstruction with Priors in Test Time
- [CVPR 2026] FF3R: Feedforward Feature 3D Reconstruction from Unconstrained Views
- [CVPR 2026] Speed3R: Sparse Feed-forward 3D Reconstruction Models
- [CVPR 2026] VGG-T3: Offline Feed-Forward 3D Reconstruction at Scale
- [CVPR 2026] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction