Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2603.06374
代码: 即将公开
领域: 语义分割 / 弱监督
关键词: 弱监督分割, 3D重建, 跨模态一致性, Mean Teacher, 稀疏标注

一句话总结¶

首次将前馈3D重建(MapAnything)的几何信息作为辅助监督信号引入弱监督2D语义分割，通过双Student-Teacher架构和置信度加权的跨模态一致性损失，在4个数据集上以2-7% mIoU大幅超越SOTA——且推理时仅需2D模型。

背景与动机¶

弱监督语义分割(WSSS)使用点标注/涂鸦/粗标签代替密集标注以降低成本，但在几何复杂的户外场景中性能差距仍大。现有方法（SASFormer/TEL等）仅在2D图像平面内传播稀疏标注，难以跨越遮挡和复杂结构。关键insight：3D几何结构天然提供跨视角一致性约束——当某视角中的物体被稀疏标注，3D结构可以将该标注传播到该物体在所有其他视角中的可见区域。

核心问题¶

如何利用从2D视频重建的3D点云提供的几何约束来增强弱监督2D语义分割，同时保持纯2D的推理pipeline？

方法详解¶

整体框架¶

两分支双Mean Teacher架构：2D分支(SegFormer-B4)和3D分支(Point Transformer V3)各有student-teacher对。2D和3D分支通过跨模态一致性(CMC)损失双向互相监督——3D teacher的伪标签监督2D student，反之亦然。推理时仅使用2D模型。

关键设计¶

3D重建预处理+视角感知采样: 用MapAnything从视频序列重建密集点云（60M+点），但全部处理不可行。提出view-aware sampling：对每张目标图片，60%点来自该视角（确保~72K 2D-3D对应），40%来自周围场景（提供3D上下文）。随机采样仅得~140对应点，远不够。
双置信度加权的CMC损失: 跨模态伪标签用两个置信度共同加权——(a)3D teacher的预测置信度(softmax max prob)，(b)MapAnything的逐点重建置信度。只有"预测可信+几何可靠"的点才有效监督，抑制噪声传播。
3D标签生成: 直接将2D稀疏标注通过反投影一一映射到3D点。跨所有源视角累积后，3D点云获得了比任何单一2D视角更丰富的稀疏标注覆盖。

损失函数 / 训练策略¶

\(\mathcal{L}_{Total} = \sum_{m \in \{2D,3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D}\mathcal{L}_C^{2D} + \lambda_{3D}\mathcal{L}_C^{3D}\)，两阶段训练：先Base Training(各模态独立Mean Teacher)再引入CMC(线性ramp-up 5 epochs到λ=0.1)。

实验关键数据¶

涂鸦监督下的mIoU (%)：

数据集	EMA基线	SASFormer	TEL	Rewis3d (Recon)	全监督	SS/FS
Waymo	49.4	37.8	42.4	53.3	59.1	90.3%
KITTI-360	60.3	46.4	59.2	63.4	68.4	93.4%
NYUv2	42.9	44.7	39.1	46.1	51.1	90.2%
Cityscapes	61.2	55.6	64.4	68.1	77.6	87.8%

超越其他弱监督方法2-7% mIoU，缩小到全监督的87-93%水平。

反直觉发现：重建点云(Recon)一致优于真实LiDAR(Real 3D)——因为(1)重建点云更密，(2)有重建置信度可做噪声过滤。

消融实验要点¶

双置信度(prediction+reconstruction)联合使用最优(53.3%)，无过滤仅51.9%
View-aware采样比随机采样高+1.4%
多视角重建比单帧重建高+1.2%，但单帧仍优于基线+2.7%
对backbone架构无关——换成EoMT(DINOv2 features)仍有一致提升

亮点¶

"几何即监督"的核心idea非常优雅：3D重建不是目标，而是辅助信号——训练时注入，推理时无开销
重建点云优于真实LiDAR是极有启发性的发现——因为密度+置信度过滤的组合效果
跨4个数据集(室内/室外)、3种标注类型(点/涂鸦/粗标注)的一致大幅提升证明了通用性
View-aware采样策略解决了大规模点云处理的实际工程难题

局限性 / 可改进方向¶

3D重建(MapAnything)不处理动态物体，可能对驾驶场景中的动态对象引入噪声
需要视频序列做3D重建预处理，不适用于纯单图场景（但Cityscapes实验表明单帧重建也有效）
3D分支(Point Transformer V3)仅用于训练，可考虑更轻量的3D表示

与相关工作的对比¶

SASFormer/TEL: 纯2D传播方法，Waymo上分别37.8%/42.4% vs 本文53.3%，差距显著
2D-3D跨模态方法: 现有方法多需要3D数据做推理（如LiDAR），本文推理纯2D
Mean Teacher基线(EMA): 本文在其基础上增加3D-CMC分支，Waymo提升+3.9%

启发与关联¶

"重建即监督"思路可推广到其他需要跨视角一致性的任务（如视频分割、多视角物体检测）
双置信度加权的跨模态一致性机制对任何多模态学习场景都有参考价值
证明了前馈3D重建(MapAnything/VGGT/DUSt3R)的新应用场景——不只用于3D，更可增强2D

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将前馈3D重建引入弱监督2D分割作为辅助监督，idea清晰优雅
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、3种标注类型、充分消融、real vs recon对比、backbone无关性验证
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法描述系统、实验分析深入（尤其是App.E的real vs recon分析）
价值: ⭐⭐⭐⭐⭐ 对弱监督分割领域有范式性意义，缩小到全监督87-93%水平