Reliev3R: Relieving Feed-forward 3D Reconstruction from Multi-View Geometric Annotations¶

会议: CVPR 2026
arXiv: 2604.00548
代码: 无
领域: 3D视觉
关键词: 前馈3D重建, 弱监督, 单目深度, 稀疏对应, 无SfM训练

一句话总结¶

Reliev3R 首次提出无需多视图几何标注（无需 SfM/MVS 生成的点云和位姿）即可从头训练前馈3D重建模型（FFRM）的弱监督范式，利用单目相对深度和稀疏图像对应作为替代监督，性能追平甚至超过部分全监督 FFRM。

前馈3D重建模型（如 DUSt3R、MASt3R）将 2D 图像端到端映射到 3D 内容，但严重依赖 SfM/MVS 流水线生成的多视图几何标注。这些标注计算昂贵、在弱纹理场景中脆弱、难以扩展。

核心观察：多视图几何标注不是重建的本质——原始多视图输入本身已包含所有几何线索（深度-外观关系、多视图对应、位姿诱导的重投影结构）。用 SfM 标注训练 FFRM 等价于把传统重建流水线"嵌入"到 Transformer 中。

关键问题：能否直接从多视图输入中学习几何原理，而不依赖重型几何标注？

输入多视图图像 → FFRM 预测逐视图深度图和相机位姿 → 两种弱监督信号约束：(1) 单目相对深度伪标签约束深度形状；(2) 稀疏2D对应约束多视图几何一致性。

歧义感知相对深度损失:
- 功能：用单目深度估计的伪标签约束预测深度的形状
- 核心思路：预训练单目深度模型提供相对深度伪标签。由于单目估计在多视图间不一致，设计歧义感知的尺度不变深度损失——自动降低天空、反射面等不可靠区域的权重。只约束深度的排序关系和形状，不约束绝对尺度
- 设计动机：单目深度提供"每个像素大概多远"的先验，但在天空等区域不可靠，需要自动识别并降权
基于三角测量的重投影损失:
- 功能：利用稀疏2D对应约束深度和位姿的多视图几何一致性
- 核心思路：现成匹配器提供2D稀疏对应点。利用预测的深度图和相机位姿进行三角测量，计算重投影误差。这个损失联合优化深度和位姿，将逐视图的深度预测注册到全局3D坐标系中
- 设计动机：单目深度只约束局部形状，缺乏跨视图的全局一致性。稀疏对应提供了将各视图"拼接"到一起的几何锚点
弱监督训练范式:
- 功能：完全不依赖 SfM/MVS 标注从头训练 FFRM
- 核心思路：两种伪标签都由预训练专家模型零样本生成（单目深度模型+图像匹配器），不需要任何场景特定的3D标注。相机内参假设已知（这在实际中通常可获取）
- 设计动机：消除对 SfM 流水线的依赖，使训练数据可以扩展到任意未标注的多视图图像集

歧义感知尺度不变深度损失 + 三角测量重投影损失。从头训练，不使用任何全监督预训练权重。

用更少的标注数据追平甚至超过部分全监督方法。