Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2603.06374
代码: 待发布
领域: 分割 / 弱监督分割 / 3D视觉
关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 双学生-教师, 稀疏标注

一句话总结¶

Rewis3d 首次将 feed-forward 3D 场景重建作为辅助监督信号引入弱监督语义分割，通过双学生-教师架构实现 2D 图像与重建 3D 点云间的双向跨模态一致性学习（CMC），配合双置信度过滤和视角感知采样，在仅有稀疏标注（点、涂鸦、粗标注）下将多个数据集的 mIoU 提升 2-7%，且推理时仅需 2D 输入。

研究背景与动机¶

领域现状：语义分割依赖大量像素级密集标注，弱监督方法（点/涂鸦/粗标注）可显著降低标注成本。现有 WSSS 方法如 SASFormer 和 TEL 通过特殊架构和损失函数在图像平面内传播标注信息。
现有痛点：这些方法仅在 2D 图像平面内操作，难以处理几何复杂的户外场景中的遮挡和尺度变化问题，标注传播范围有限。
核心矛盾：稀疏标注的信息量不足以覆盖整个场景，而 2D 方法缺乏跨视角一致性约束来弥补这一不足。
本文目标 如何利用额外的几何结构信息来增强稀疏标注的传播效果？
切入角度：近期 feed-forward 3D 重建（如 MapAnything）可以从 2D 视频序列直接恢复高保真 3D 点云。当一个物体在某个视角被稀疏标注时，其 3D 结构可以将标注传递到该物体出现的所有其他视角。
核心 idea：利用重建的 3D 几何结构作为跨视角一致性桥梁，在训练阶段实现 2D-3D 双向知识传递来增强弱监督分割，推理时保持纯 2D。

方法详解¶

整体框架¶

Rewis3d 包含三个核心组件：(1) 2D 分割分支，(2) 3D 分割分支，(3) 跨模态一致性（CMC）模块。输入为 2D 视频序列及其稀疏标注。首先用 MapAnything 将视频重建为 3D 点云，将稀疏 2D 标注投射到 3D 空间。然后两个分支各自使用 Mean Teacher 架构进行训练，最后 CMC 模块实现两个分支教师-学生间的双向监督。推理时仅使用 2D 分支。

关键设计¶

3D 场景重建与预处理:
- 功能：从 2D 视频生成带置信度的 3D 点云，并为每张目标图像创建专用的点云子采样
- 核心思路：用 MapAnything 进行前馈式多视角立体重建，直接输出点云 \(P=\{p_i\}\) 和逐点重建置信度 \(c_i^{\text{rec}}\)。提出视角感知采样策略——为每张目标图像生成 120K 点的子采样，其中 60%（72K）来自当前视角的对应点以保证密集 2D-3D 对应关系，40%（48K）来自周围场景提供上下文。3D 标签通过将 2D 稀疏标注逆投影到对应 3D 点来生成。
- 设计动机：完整场景常有 60M+ 点，全局随机采样到 120K 后每张图像仅约 140 个对应点，远不足以训练 CMC 损失；视角感知采样保证每张图约 72K 对应关系。
双学生-教师架构:
- 功能：为 2D 和 3D 分支各建立学生-教师结构，提供稳定的伪标签用于无监督学习和跨模态监督
- 核心思路：每个分支采用 Mean Teacher，教师权重通过 EMA 更新 \(\theta_t^{\text{teacher}} \leftarrow \alpha \theta_{t-1}^{\text{teacher}} + (1-\alpha)\theta_t^{\text{student}}\)（\(\alpha=0.99\)）。学生在标注区域用交叉熵损失 \(\mathcal{L}_S\)，在未标注区域用 KL 散度一致性损失 \(\mathcal{L}_U\) 与教师伪标签对齐。引入置信度权重 \(w_t\)（教师最大类别概率超过阈值 \(\tau\) 的像素比例）自适应缩放一致性损失。
- 设计动机：Mean Teacher 在弱监督设置下特别有效，EMA 更新的教师提供稳定监督目标，适合作为跨模态损失的可靠伪标签源。
加权跨模态一致性（CMC）损失:
- 功能：实现 2D 与 3D 分支间的双向知识传递——3D 教师监督 2D 学生，2D 教师监督 3D 学生
- 核心思路：对于 3D 教师→2D 学生方向，用加权交叉熵损失 \(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\)，其中权重 \(w_i = \max(\text{softmax}(T_{3D}(p_i))) \cdot c_i^{\text{rec}}\) 结合预测置信度和重建置信度两个信号。对称地定义 \(\mathcal{L}_C^{3D}\)。对学生施加更强的数据增强（2D: RandomCrop/Cutout/AugMix；3D: RandomRotation/RandomScale/RandomJitter），教师输入较弱增强。
- 设计动机：双置信度过滤确保监督主要来自可靠预测 + 高质量重建几何区域，抑制噪声伪标签的影响。

损失函数 / 训练策略¶

总损失为：\(\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D, 3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D}\mathcal{L}_C^{2D} + \lambda_{3D}\mathcal{L}_C^{3D}\)。分两阶段训练：第一阶段（Base Training，15 epochs）独立训练两个分支；第二阶段引入 CMC 损失并在 5 个 epoch 内线性 ramp up 到 \(\lambda=0.1\)。2D 骨干用 SegFormer-B4，3D 骨干用 Point Transformer V3。

实验关键数据¶

主实验¶

数据集	指标	Rewis3d (Recon)	EMA (基线)	TEL	SASFormer	提升 (vs EMA)
Waymo	mIoU	53.3%	49.4%	42.4%	37.8%	+3.9%
KITTI-360	mIoU	63.4%	60.3%	59.2%	46.4%	+3.1%
NYUv2	mIoU	46.1%	42.9%	38.3%	44.7%	+3.2%

Cityscapes 跨标注类型泛化：

标注类型	EMA	Rewis3d	提升
点标注	50.5%	56.5%	+6.0%
涂鸦标注	61.2%	68.1%	+6.9%
粗标注	66.5%	68.6%	+2.1%

消融实验¶

配置	Waymo mIoU	说明
EMA 基线 (仅 2D)	49.4%	无 3D 辅助
+ CMC (无过滤)	51.9%	无置信度过滤
+ 预测置信度	52.7%	+0.8%
+ 重建置信度	52.1%	+0.2%
+ 双置信度 (完整)	53.3%	两者互补
随机采样	51.9%	仅约 140 对应点/图像
视角感知采样	53.3%	+1.4%
单帧重建	52.1%	几何不够丰富
多视角重建	53.3%	+1.2%

关键发现¶

重建 3D 优于真实 3D：用 MapAnything 重建的点云一致性地优于真实 LiDAR/深度数据。原因有二：(1) 重建点云比 LiDAR 更密集完整；(2) 重建提供逐点置信度可用于双置信度过滤，而真实 3D 数据无此信号。
视角感知采样贡献最大：+1.4 mIoU，保证了足够的 2D-3D 对应点数用于 CMC 损失。
标注越稀疏优势越大：在极稀疏涂鸦设置下性能差距进一步扩大，体现了几何监督在标注不足时的价值。
架构无关：替换为 EoMT 骨干仍然有一致性提升。

亮点与洞察¶

重建优于真实的反直觉发现：重建 3D 因更密集且带置信度而优于 LiDAR，打破了"真实数据必然更好"的假设。这提示其他跨模态任务也可考虑用重建数据替代传感器数据。
视角感知采样设计精巧：60/40 分配比例既保证目标图像的密集 2D-3D 对应（用于 CMC），又保留全局上下文（用于 3D 分割），一举两得。
纯 2D 推理：3D 分支仅在训练时使用，推理时零额外开销，实用性极强。可迁移思路：其他需要多模态数据的任务也可考虑"训练时多模态、推理时单模态"。

局限与展望¶

当前 3D 重建模型不显式处理动态物体，驾驶场景中运动物体会引入几何噪声
需要视频序列作为输入进行 3D 重建，纯单图数据集适用性受限（但 Cityscapes 实验表明单帧重建也有 +2.7% 提升）
MapAnything 重建本身的计算成本未详细讨论
未来方向：集成显式处理动态场景的重建模型可进一步提升效果

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 3D 重建信号引入 WSSS，方向新颖但各组件（Mean Teacher/CMC/置信度过滤）相对标准
实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集、3 种标注类型、全面消融、真实vs重建对比
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，图表丰富，消融彻底
价值: ⭐⭐⭐⭐ 实用性强（推理零开销），但依赖视频输入限制了部分应用场景