跳转至

Reliev3R: Relieving Feed-forward 3D Reconstruction from Multi-View Geometric Annotations

会议: CVPR 2026
arXiv: 2604.00548
代码: 无
领域: 3D视觉
关键词: 前馈3D重建, 弱监督, 单目深度, 稀疏对应, 无SfM训练

一句话总结

Reliev3R 首次提出无需多视图几何标注(无需 SfM/MVS 生成的点云和位姿)即可从头训练前馈3D重建模型(FFRM)的弱监督范式,利用单目相对深度和稀疏图像对应作为替代监督,性能追平甚至超过部分全监督 FFRM。

研究背景与动机

前馈3D重建模型(如 DUSt3R、MASt3R)将 2D 图像端到端映射到 3D 内容,但严重依赖 SfM/MVS 流水线生成的多视图几何标注。这些标注计算昂贵、在弱纹理场景中脆弱、难以扩展。

核心观察:多视图几何标注不是重建的本质——原始多视图输入本身已包含所有几何线索(深度-外观关系、多视图对应、位姿诱导的重投影结构)。用 SfM 标注训练 FFRM 等价于把传统重建流水线"嵌入"到 Transformer 中。

关键问题:能否直接从多视图输入中学习几何原理,而不依赖重型几何标注?

方法详解

整体框架

输入多视图图像 → FFRM 预测逐视图深度图和相机位姿 → 两种弱监督信号约束:(1) 单目相对深度伪标签约束深度形状;(2) 稀疏2D对应约束多视图几何一致性。

关键设计

  1. 歧义感知相对深度损失:

    • 功能:用单目深度估计的伪标签约束预测深度的形状
    • 核心思路:预训练单目深度模型提供相对深度伪标签。由于单目估计在多视图间不一致,设计歧义感知的尺度不变深度损失——自动降低天空、反射面等不可靠区域的权重。只约束深度的排序关系和形状,不约束绝对尺度
    • 设计动机:单目深度提供"每个像素大概多远"的先验,但在天空等区域不可靠,需要自动识别并降权
  2. 基于三角测量的重投影损失:

    • 功能:利用稀疏2D对应约束深度和位姿的多视图几何一致性
    • 核心思路:现成匹配器提供2D稀疏对应点。利用预测的深度图和相机位姿进行三角测量,计算重投影误差。这个损失联合优化深度和位姿,将逐视图的深度预测注册到全局3D坐标系中
    • 设计动机:单目深度只约束局部形状,缺乏跨视图的全局一致性。稀疏对应提供了将各视图"拼接"到一起的几何锚点
  3. 弱监督训练范式:

    • 功能:完全不依赖 SfM/MVS 标注从头训练 FFRM
    • 核心思路:两种伪标签都由预训练专家模型零样本生成(单目深度模型+图像匹配器),不需要任何场景特定的3D标注。相机内参假设已知(这在实际中通常可获取)
    • 设计动机:消除对 SfM 流水线的依赖,使训练数据可以扩展到任意未标注的多视图图像集

损失函数 / 训练策略

歧义感知尺度不变深度损失 + 三角测量重投影损失。从头训练,不使用任何全监督预训练权重。

实验关键数据

主实验

方法 监督 深度精度 位姿精度 说明
MVDUSt3R 全监督 早期FFRM
FLARE 全监督 近期FFRM
AnyCam 弱监督(位姿) 专注位姿估计
Reliev3R 弱监督 追平/超越 超越AnyCam 无需几何标注

用更少的标注数据追平甚至超过部分全监督方法。

消融实验

配置 深度精度 位姿精度 说明
仅相对深度损失 中(局部好) 缺乏全局一致性
仅重投影损失 缺乏深度形状约束
两者结合 最优 最优 互补效应显著
无歧义感知 下降 天空等区域引入噪声

关键发现

  • 两种监督信号高度互补:相对深度约束局部形状,重投影约束全局对齐
  • 歧义感知机制至关重要——没有它,天空/反射面的错误深度估计会破坏优化
  • 在位姿估计上显著超过 AnyCam(同为弱监督方法),说明深度和位姿的联合优化比独立估计更有效

亮点与洞察

  • 降低3D学习的数据门槛:从"需要SfM标注"到"只需图像+预训练模型",大幅降低了训练数据构建成本
  • 预训练模型作为免费标注器:单目深度模型和匹配器提供的伪标签足以替代昂贵的SfM流水线
  • 迈向可扩展的3D基础模型:消除几何标注瓶颈后,FFRM 可以在任意规模的多视图数据上训练

局限与展望

  • 仍假设已知相机内参,虽然实际中通常可获取但限制了完全的"零假设"学习
  • 伪标签质量受限于预训练模型——在严重分布外的场景可能不可靠
  • 当前性能仍略低于最新的全监督 FFRM(如 VGGT、Fast3R),但差距在缩小
  • 未来可探索完全自监督(连内参也不需要)的训练范式

相关工作与启发

  • vs DUSt3R/MASt3R/VGGT: 这些全监督 FFRM 性能更强但依赖 SfM 标注,Reliev3R 摆脱了这一依赖
  • vs AnyCam: 同为弱监督但 AnyCam 只估计位姿,Reliev3R 同时做深度和位姿
  • vs MonoDepth: 单目深度方法不具备多视图一致性,Reliev3R 将其作为组件而非最终方案

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个无多视图几何标注从头训练 FFRM 的方法,范式创新
  • 实验充分度: ⭐⭐⭐⭐ 多数据集对比全面
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,技术细节完整
  • 价值: ⭐⭐⭐⭐⭐ 对可扩展3D重建有重要推动

相关论文