跳转至

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

会议: CVPR 2026
arXiv: 2603.06374
代码: 待发布
领域: 分割 / 弱监督分割 / 3D视觉
关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 双学生-教师, 稀疏标注

一句话总结

Rewis3d 首次将 feed-forward 3D 场景重建作为辅助监督信号引入弱监督语义分割,通过双学生-教师架构实现 2D 图像与重建 3D 点云间的双向跨模态一致性学习(CMC),配合双置信度过滤和视角感知采样,在仅有稀疏标注(点、涂鸦、粗标注)下将多个数据集的 mIoU 提升 2-7%,且推理时仅需 2D 输入。

研究背景与动机

  1. 领域现状:语义分割依赖大量像素级密集标注,弱监督方法(点/涂鸦/粗标注)可显著降低标注成本。现有 WSSS 方法如 SASFormer 和 TEL 通过特殊架构和损失函数在图像平面内传播标注信息。
  2. 现有痛点:这些方法仅在 2D 图像平面内操作,难以处理几何复杂的户外场景中的遮挡和尺度变化问题,标注传播范围有限。
  3. 核心矛盾:稀疏标注的信息量不足以覆盖整个场景,而 2D 方法缺乏跨视角一致性约束来弥补这一不足。
  4. 本文目标 如何利用额外的几何结构信息来增强稀疏标注的传播效果?
  5. 切入角度:近期 feed-forward 3D 重建(如 MapAnything)可以从 2D 视频序列直接恢复高保真 3D 点云。当一个物体在某个视角被稀疏标注时,其 3D 结构可以将标注传递到该物体出现的所有其他视角。
  6. 核心 idea:利用重建的 3D 几何结构作为跨视角一致性桥梁,在训练阶段实现 2D-3D 双向知识传递来增强弱监督分割,推理时保持纯 2D。

方法详解

整体框架

Rewis3d 包含三个核心组件:(1) 2D 分割分支,(2) 3D 分割分支,(3) 跨模态一致性(CMC)模块。输入为 2D 视频序列及其稀疏标注。首先用 MapAnything 将视频重建为 3D 点云,将稀疏 2D 标注投射到 3D 空间。然后两个分支各自使用 Mean Teacher 架构进行训练,最后 CMC 模块实现两个分支教师-学生间的双向监督。推理时仅使用 2D 分支。

关键设计

  1. 3D 场景重建与预处理:

    • 功能:从 2D 视频生成带置信度的 3D 点云,并为每张目标图像创建专用的点云子采样
    • 核心思路:用 MapAnything 进行前馈式多视角立体重建,直接输出点云 \(P=\{p_i\}\) 和逐点重建置信度 \(c_i^{\text{rec}}\)。提出视角感知采样策略——为每张目标图像生成 120K 点的子采样,其中 60%(72K)来自当前视角的对应点以保证密集 2D-3D 对应关系,40%(48K)来自周围场景提供上下文。3D 标签通过将 2D 稀疏标注逆投影到对应 3D 点来生成。
    • 设计动机:完整场景常有 60M+ 点,全局随机采样到 120K 后每张图像仅约 140 个对应点,远不足以训练 CMC 损失;视角感知采样保证每张图约 72K 对应关系。
  2. 双学生-教师架构:

    • 功能:为 2D 和 3D 分支各建立学生-教师结构,提供稳定的伪标签用于无监督学习和跨模态监督
    • 核心思路:每个分支采用 Mean Teacher,教师权重通过 EMA 更新 \(\theta_t^{\text{teacher}} \leftarrow \alpha \theta_{t-1}^{\text{teacher}} + (1-\alpha)\theta_t^{\text{student}}\)\(\alpha=0.99\))。学生在标注区域用交叉熵损失 \(\mathcal{L}_S\),在未标注区域用 KL 散度一致性损失 \(\mathcal{L}_U\) 与教师伪标签对齐。引入置信度权重 \(w_t\)(教师最大类别概率超过阈值 \(\tau\) 的像素比例)自适应缩放一致性损失。
    • 设计动机:Mean Teacher 在弱监督设置下特别有效,EMA 更新的教师提供稳定监督目标,适合作为跨模态损失的可靠伪标签源。
  3. 加权跨模态一致性(CMC)损失:

    • 功能:实现 2D 与 3D 分支间的双向知识传递——3D 教师监督 2D 学生,2D 教师监督 3D 学生
    • 核心思路:对于 3D 教师→2D 学生方向,用加权交叉熵损失 \(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\),其中权重 \(w_i = \max(\text{softmax}(T_{3D}(p_i))) \cdot c_i^{\text{rec}}\) 结合预测置信度和重建置信度两个信号。对称地定义 \(\mathcal{L}_C^{3D}\)。对学生施加更强的数据增强(2D: RandomCrop/Cutout/AugMix;3D: RandomRotation/RandomScale/RandomJitter),教师输入较弱增强。
    • 设计动机:双置信度过滤确保监督主要来自可靠预测 + 高质量重建几何区域,抑制噪声伪标签的影响。

损失函数 / 训练策略

总损失为:\(\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D, 3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D}\mathcal{L}_C^{2D} + \lambda_{3D}\mathcal{L}_C^{3D}\)。分两阶段训练:第一阶段(Base Training,15 epochs)独立训练两个分支;第二阶段引入 CMC 损失并在 5 个 epoch 内线性 ramp up 到 \(\lambda=0.1\)。2D 骨干用 SegFormer-B4,3D 骨干用 Point Transformer V3。

实验关键数据

主实验

数据集 指标 Rewis3d (Recon) EMA (基线) TEL SASFormer 提升 (vs EMA)
Waymo mIoU 53.3% 49.4% 42.4% 37.8% +3.9%
KITTI-360 mIoU 63.4% 60.3% 59.2% 46.4% +3.1%
NYUv2 mIoU 46.1% 42.9% 38.3% 44.7% +3.2%

Cityscapes 跨标注类型泛化:

标注类型 EMA Rewis3d 提升
点标注 50.5% 56.5% +6.0%
涂鸦标注 61.2% 68.1% +6.9%
粗标注 66.5% 68.6% +2.1%

消融实验

配置 Waymo mIoU 说明
EMA 基线 (仅 2D) 49.4% 无 3D 辅助
+ CMC (无过滤) 51.9% 无置信度过滤
+ 预测置信度 52.7% +0.8%
+ 重建置信度 52.1% +0.2%
+ 双置信度 (完整) 53.3% 两者互补
随机采样 51.9% 仅约 140 对应点/图像
视角感知采样 53.3% +1.4%
单帧重建 52.1% 几何不够丰富
多视角重建 53.3% +1.2%

关键发现

  • 重建 3D 优于真实 3D:用 MapAnything 重建的点云一致性地优于真实 LiDAR/深度数据。原因有二:(1) 重建点云比 LiDAR 更密集完整;(2) 重建提供逐点置信度可用于双置信度过滤,而真实 3D 数据无此信号。
  • 视角感知采样贡献最大:+1.4 mIoU,保证了足够的 2D-3D 对应点数用于 CMC 损失。
  • 标注越稀疏优势越大:在极稀疏涂鸦设置下性能差距进一步扩大,体现了几何监督在标注不足时的价值。
  • 架构无关:替换为 EoMT 骨干仍然有一致性提升。

亮点与洞察

  • 重建优于真实的反直觉发现:重建 3D 因更密集且带置信度而优于 LiDAR,打破了"真实数据必然更好"的假设。这提示其他跨模态任务也可考虑用重建数据替代传感器数据。
  • 视角感知采样设计精巧:60/40 分配比例既保证目标图像的密集 2D-3D 对应(用于 CMC),又保留全局上下文(用于 3D 分割),一举两得。
  • 纯 2D 推理:3D 分支仅在训练时使用,推理时零额外开销,实用性极强。可迁移思路:其他需要多模态数据的任务也可考虑"训练时多模态、推理时单模态"。

局限与展望

  • 当前 3D 重建模型不显式处理动态物体,驾驶场景中运动物体会引入几何噪声
  • 需要视频序列作为输入进行 3D 重建,纯单图数据集适用性受限(但 Cityscapes 实验表明单帧重建也有 +2.7% 提升)
  • MapAnything 重建本身的计算成本未详细讨论
  • 未来方向:集成显式处理动态场景的重建模型可进一步提升效果

相关工作与启发

  • vs SASFormer/TEL: 纯 2D 方法在图像平面内传播标注,受限于外观相似性;本文引入 3D 几何约束实现跨视角传播
  • vs 2DPASS/Unal: 这些方法用 2D→3D 蒸馏做 LiDAR 分割;本文反向操作 3D→2D,且使用重建几何而非真实传感器
  • vs WSSS + 图像级标注: 点/涂鸦/粗标注提供空间定位,配合 3D 几何效果更好

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 3D 重建信号引入 WSSS,方向新颖但各组件(Mean Teacher/CMC/置信度过滤)相对标准
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集、3 种标注类型、全面消融、真实vs重建对比
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,图表丰富,消融彻底
  • 价值: ⭐⭐⭐⭐ 实用性强(推理零开销),但依赖视频输入限制了部分应用场景

相关论文