Murre: Multi-view Reconstruction via SfM-guided Monocular Depth Estimation¶

会议: CVPR 2025
arXiv: 2503.14483
代码: https://zju3dv.github.io/murre/
领域: 3D视觉 / 多视角重建
关键词: 多视角重建, SfM引导, 单目深度估计, 扩散模型, 深度补全

一句话总结¶

提出 Murre，一种新的多视角 3D 重建框架，通过将 SfM 稀疏点云注入扩散模型指导单目深度估计，绕过了传统 MVS 的多视角匹配步骤，在多种真实场景（室内、街景、航拍）上超越 SOTA。

领域现状：学习型 MVS 方法在低纹理区域和稀疏视角下效果差，且 3D 代价体消耗大量 GPU 显存。

现有痛点：MVS 隐式依赖多视角一致性，稀疏视角时匹配失败；单目深度估计虽不需要匹配但缺乏多视角一致性和度量信息。

核心矛盾：多视角一致性需要匹配，但匹配在难场景下不可靠；单目预测不需要匹配但不一致。

核心 idea：用 SfM 点云作为显式中间表示，将多视角信息注入单目深度扩散模型，兼得两者优势。

给定多视角图像：(1) SfM 重建稀疏点云；(2) 将点云投影为各视角的稀疏深度图并稠密化；(3) 稠密化深度图 + RGB 图像作为条件输入扩散模型预测度量深度；(4) TSDF 融合得到最终几何。

SfM 先验注入扩散模型:
- 功能：为单目深度估计提供多视角一致的度量信息
- 核心思路：将 SfM 稀疏深度用 KNN 插值稠密化，计算每个像素到最近有值点的距离图作为置信度指标。稠密化深度图和距离图一起作为条件送入基于 Stable Diffusion V2 的深度扩散模型
- 设计动机：SfM 点云是多视角信息的浓缩形式，天然提供度量尺度和场景显著结构
深度归一化与尺度对齐:
- 功能：处理不同场景和视角间的深度范围差异
- 核心思路：先过滤 SfM 深度的上下 2% 异常值，将范围扩展到 0.8×min 和 1.2×max，用此范围归一化 GT 深度用于训练。推理时用 RANSAC 线性回归将预测深度与 SfM 深度对齐
- 设计动机：SfM 深度含异常值且只覆盖部分像素，需要稳健的归一化策略
基于 Stable Diffusion 的深度估计:
- 功能：利用 2D 基础模型的强大先验实现泛化
- 核心思路：从 SD V2 初始化，固定 VAE 仅微调 UNet。将深度复制为三通道经 VAE 编码器映射到 latent space，在 latent space 进行加噪和去噪
- 设计动机：少量合成数据微调即可在多种真实场景中泛化

标准扩散去噪损失。使用 Detector-free SfM 处理弱纹理区域。训练数据包含合成场景。