Reliev3R: Relieving Feed-forward 3D Reconstruction from Multi-View Geometric Annotations¶
会议: CVPR 2026
arXiv: 2604.00548
代码: 无
领域: 3D视觉
关键词: 前馈3D重建, 弱监督, 单目深度, 稀疏对应, 无SfM训练
一句话总结¶
Reliev3R 首次提出无需多视图几何标注(无需 SfM/MVS 生成的点云和位姿)即可从头训练前馈3D重建模型(FFRM)的弱监督范式,利用单目相对深度和稀疏图像对应作为替代监督,性能追平甚至超过部分全监督 FFRM。
研究背景与动机¶
前馈3D重建模型(如 DUSt3R、MASt3R)将 2D 图像端到端映射到 3D 内容,但严重依赖 SfM/MVS 流水线生成的多视图几何标注。这些标注计算昂贵、在弱纹理场景中脆弱、难以扩展。
核心观察:多视图几何标注不是重建的本质——原始多视图输入本身已包含所有几何线索(深度-外观关系、多视图对应、位姿诱导的重投影结构)。用 SfM 标注训练 FFRM 等价于把传统重建流水线"嵌入"到 Transformer 中。
关键问题:能否直接从多视图输入中学习几何原理,而不依赖重型几何标注?
方法详解¶
整体框架¶
输入多视图图像 → FFRM 预测逐视图深度图和相机位姿 → 两种弱监督信号约束:(1) 单目相对深度伪标签约束深度形状;(2) 稀疏2D对应约束多视图几何一致性。
关键设计¶
-
歧义感知相对深度损失:
- 功能:用单目深度估计的伪标签约束预测深度的形状
- 核心思路:预训练单目深度模型提供相对深度伪标签。由于单目估计在多视图间不一致,设计歧义感知的尺度不变深度损失——自动降低天空、反射面等不可靠区域的权重。只约束深度的排序关系和形状,不约束绝对尺度
- 设计动机:单目深度提供"每个像素大概多远"的先验,但在天空等区域不可靠,需要自动识别并降权
-
基于三角测量的重投影损失:
- 功能:利用稀疏2D对应约束深度和位姿的多视图几何一致性
- 核心思路:现成匹配器提供2D稀疏对应点。利用预测的深度图和相机位姿进行三角测量,计算重投影误差。这个损失联合优化深度和位姿,将逐视图的深度预测注册到全局3D坐标系中
- 设计动机:单目深度只约束局部形状,缺乏跨视图的全局一致性。稀疏对应提供了将各视图"拼接"到一起的几何锚点
-
弱监督训练范式:
- 功能:完全不依赖 SfM/MVS 标注从头训练 FFRM
- 核心思路:两种伪标签都由预训练专家模型零样本生成(单目深度模型+图像匹配器),不需要任何场景特定的3D标注。相机内参假设已知(这在实际中通常可获取)
- 设计动机:消除对 SfM 流水线的依赖,使训练数据可以扩展到任意未标注的多视图图像集
损失函数 / 训练策略¶
歧义感知尺度不变深度损失 + 三角测量重投影损失。从头训练,不使用任何全监督预训练权重。
实验关键数据¶
主实验¶
| 方法 | 监督 | 深度精度 | 位姿精度 | 说明 |
|---|---|---|---|---|
| MVDUSt3R | 全监督 | 中 | 中 | 早期FFRM |
| FLARE | 全监督 | 中 | 中 | 近期FFRM |
| AnyCam | 弱监督(位姿) | — | 中 | 专注位姿估计 |
| Reliev3R | 弱监督 | 追平/超越 | 超越AnyCam | 无需几何标注 |
用更少的标注数据追平甚至超过部分全监督方法。
消融实验¶
| 配置 | 深度精度 | 位姿精度 | 说明 |
|---|---|---|---|
| 仅相对深度损失 | 中(局部好) | 差 | 缺乏全局一致性 |
| 仅重投影损失 | 差 | 中 | 缺乏深度形状约束 |
| 两者结合 | 最优 | 最优 | 互补效应显著 |
| 无歧义感知 | 下降 | — | 天空等区域引入噪声 |
关键发现¶
- 两种监督信号高度互补:相对深度约束局部形状,重投影约束全局对齐
- 歧义感知机制至关重要——没有它,天空/反射面的错误深度估计会破坏优化
- 在位姿估计上显著超过 AnyCam(同为弱监督方法),说明深度和位姿的联合优化比独立估计更有效
亮点与洞察¶
- 降低3D学习的数据门槛:从"需要SfM标注"到"只需图像+预训练模型",大幅降低了训练数据构建成本
- 预训练模型作为免费标注器:单目深度模型和匹配器提供的伪标签足以替代昂贵的SfM流水线
- 迈向可扩展的3D基础模型:消除几何标注瓶颈后,FFRM 可以在任意规模的多视图数据上训练
局限与展望¶
- 仍假设已知相机内参,虽然实际中通常可获取但限制了完全的"零假设"学习
- 伪标签质量受限于预训练模型——在严重分布外的场景可能不可靠
- 当前性能仍略低于最新的全监督 FFRM(如 VGGT、Fast3R),但差距在缩小
- 未来可探索完全自监督(连内参也不需要)的训练范式
相关工作与启发¶
- vs DUSt3R/MASt3R/VGGT: 这些全监督 FFRM 性能更强但依赖 SfM 标注,Reliev3R 摆脱了这一依赖
- vs AnyCam: 同为弱监督但 AnyCam 只估计位姿,Reliev3R 同时做深度和位姿
- vs MonoDepth: 单目深度方法不具备多视图一致性,Reliev3R 将其作为组件而非最终方案
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个无多视图几何标注从头训练 FFRM 的方法,范式创新
- 实验充分度: ⭐⭐⭐⭐ 多数据集对比全面
- 写作质量: ⭐⭐⭐⭐ 动机清晰,技术细节完整
- 价值: ⭐⭐⭐⭐⭐ 对可扩展3D重建有重要推动
相关论文¶
- [CVPR 2026] AnchorSplat: Feed-Forward 3D Gaussian Splatting with 3D Geometric Priors
- [CVPR 2026] PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery
- [CVPR 2026] Speed3R: Sparse Feed-forward 3D Reconstruction Models
- [CVPR 2026] VGG-T3: Offline Feed-Forward 3D Reconstruction at Scale
- [CVPR 2026] MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer