Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation¶

会议: CVPR2026 arXiv: 2603.06374 代码: 待发布（论文接收后公开）领域: 3D视觉 / 弱监督语义分割 关键词: 弱监督语义分割, 3D重建, 跨模态一致性, 双师生架构, 点云, 稀疏标注

一句话总结¶

Rewis3d 利用前馈式多视图3D重建生成的点云作为辅助监督信号，通过双师生架构实现2D图像与3D点云之间的双向跨模态一致性学习，在稀疏标注（点/涂鸦/粗标注）下将弱监督语义分割性能提升2-7% mIoU，推理时仅需2D图像。

背景与动机¶

密集标注代价高昂：语义分割依赖像素级标注，获取成本极高，严重制约了大规模数据集的构建
弱监督存在性能差距：点标注、涂鸦标注等稀疏标注虽然大幅降低标注成本，但与全监督相比仍存在明显性能差距
现有WSSS方法局限于2D平面：SASFormer、TEL等方法仅在2D图像平面内传播监督信号，难以处理遮挡复杂的场景
3D几何提供互补信息：3D几何结构能提供跨视角一致性约束，将稀疏标注从单帧扩展到整个3D场景
前馈3D重建已成熟：MapAnything等模型可从2D视频序列直接重建高质量3D点云，无需LiDAR等专用传感器
推理效率需求：方法应在训练时利用3D信息，推理时仅使用2D图像，避免部署3D传感器的额外成本

方法详解¶

整体框架¶

Rewis3d 包含三个核心组件：(1) 2D分割分支（SegFormer-B4）；(2) 3D分割分支（Point Transformer V3）；(3) 跨模态一致性（CMC）模块实现双向知识传递。训练分两阶段：基础训练阶段独立训练两个分支的师生模型，随后引入CMC损失实现跨模态学习。推理时仅使用2D分支。

3D场景重建与预处理¶

重建模型：使用 MapAnything 从2D视频序列前馈式重建密集点云 \(P=\{p_i\}\) 及逐点重建置信度 \(c_i^{\text{rec}}\)
视角感知采样：为每张目标图像生成独立的120K点子采样——60%（72K）来自当前视角的点（确保密集2D-3D对应），40%（48K）来自周围场景（提供上下文）。相比随机采样（每图仅~140对应点），视角感知采样保证~72K对应点
3D标签生成：通过反投影将2D稀疏标注直接映射到3D点云，跨所有视角聚合形成统一的稀疏3D标签

双师生架构¶

每个分支均采用 Mean Teacher 架构，教师权重通过EMA更新：\(\theta_t^{\text{teacher}} \leftarrow \alpha \theta_{t-1}^{\text{teacher}} + (1-\alpha) \theta_t^{\text{student}}\)（\(\alpha=0.99\)）。学生在标注区域用交叉熵监督，在未标注区域用教师伪标签的KL散度一致性损失训练。

加权跨模态一致性损失¶

CMC损失的核心是双置信度加权：

\[w_i = \underbrace{\max(\text{softmax}(T_{3D}(p_i)))}_{\text{预测置信度}} \cdot \underbrace{c_i^{\text{rec}}}_{\text{重建置信度}}\]

3D教师监督2D学生的损失：\(\mathcal{L}_C^{2D} = -\sum_j w_i \cdot \log(S_{2D}^{y_i}(I_j))\)，对称地2D教师监督3D学生。总损失：

\[\mathcal{L}_{\text{Total}} = \sum_{m \in \{2D,3D\}} (\mathcal{L}_S^m + \mathcal{L}_U^m) + \lambda_{2D} \mathcal{L}_C^{2D} + \lambda_{3D} \mathcal{L}_C^{3D}\]

学生输入使用更强的增强（Cutout/AugMix/RandomRotation等），教师使用弱增强，促进鲁棒特征学习。

实验关键数据¶

涂鸦监督下的主要结果（mIoU %）¶

方法	Waymo	KITTI-360	NYUv2
全监督	59.0	68.4	51.1
EMA基线	49.4	60.3	42.9
SASFormer	37.8	46.4	44.7
TEL	42.4	59.2	38.3
Rewis3d (Recon)	53.3	63.4	46.1

在Waymo上比EMA基线提升 +3.9，比TEL提升 +10.9，比SASFormer提升 +15.5。

Cityscapes 多标注类型泛化（mIoU %）¶

方法	点标注	涂鸦标注	粗标注
EMA基线	50.5	61.2	66.5
Rewis3d	56.5 (+6.0)	68.1 (+6.9)	68.6 (+2.1)

消融实验（Waymo mIoU %）¶

配置	mIoU
EMA基线（仅2D）	49.4
+CMC（无置信度滤波）	51.9
+预测置信度	52.7
+重建置信度	52.1
+双置信度（完整方案）	53.3
随机采样（vs视角感知）	51.9 vs 53.3
单帧重建（vs多视图）	52.1 vs 53.3

关键发现：重建的3D点云(53.3)反而优于真实LiDAR(51.8)，原因是重建点云更密集且具有可用的重建置信度进行噪声滤波。

亮点¶

首次将前馈3D重建引入弱监督分割：巧妙地将3D几何作为训练时的辅助信号，推理仅需2D，无额外成本
重建3D优于真实3D：反直觉的发现——重建点云比LiDAR更好，归因于更密集的覆盖和双置信度滤波机制
双置信度加权设计精巧：同时考虑预测置信度和重建置信度，有效抑制噪声伪标签
视角感知采样：解决了大规模点云(60M+)与逐图训练之间的矛盾，保证密集2D-3D对应
泛化性强：在点/涂鸦/粗标注三种标注类型、室内外四个数据集上均一致提升
架构无关：可替换为EoMT等不同backbone仍有效

局限性¶

依赖视频序列：3D重建需要视频或多视图输入，单图场景下仅能做单帧重建（效果较弱，+2.7 vs +3.9）
动态物体处理不足：MapAnything未针对动态内容优化，驾驶场景中的运动物体可能引入几何噪声
训练成本增加：需要前处理3D重建 + 双分支师生训练，训练开销显著高于纯2D方法
室内场景增益有限：NYUv2上的提升（42.9→46.1）不如室外场景显著，因室内物体3D结构不够鲜明
未与基础模型方法对比：缺少与SAM等基础模型生成伪标注的方法的比较

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将前馈3D重建与弱监督分割结合，双置信度加权和视角感知采样设计新颖
实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、三种标注类型、完整消融、定性分析、backbone泛化验证
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表丰富，技术描述准确
价值: ⭐⭐⭐⭐ — 为弱监督分割提供了实用的3D辅助范式，推理无额外开销，具有较强应用价值